机器翻译
人工智能语料库-欧洲议会议事平行语料库,包括21种欧洲语言

3.75G

1582

0

人工智能语料库-欧洲议会议事平行语料库,包括21种欧洲语言

NLP

Classification,Text

人工智能语料库-欧洲议会议事平行语料库,包括21种欧洲语言前往PC端下载数据

Description

Europarl平行语料库摘自欧洲议会的议事程序。它包括21种欧洲语言的版本:罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚语),日耳曼语(英语,荷兰语,德语,丹麦语,瑞典语),斯拉维克(保加利亚语,捷克语,波兰语,斯洛伐克语,斯洛文尼亚语),芬尼-乌格里克语(芬兰文,匈牙利文,爱沙尼亚文),波罗的海文(拉脱维亚文,立陶宛文)和希腊文。

语料库的大小

删除XML后单语言数据的大小。

语言句子
保加利亚语411,636--
捷克文668,59513,195,311
丹麦文2,323,09947,761,381
德语2,176,53747,236,849
希腊语1,517,141--
英语2,218,20153,974,751
西班牙文2,123,83554,806,927
爱沙尼亚语692,21011,358,009
芬兰2,119,51533,708,706
法文2,190,57954,202,850
匈牙利658,82412,606,986
义大利文2,081,66950,259,169
立陶宛语678,66511,512,131
拉脱维亚语666,02612,085,228
荷兰人2,333,81653,487,257
抛光387,4907,087,016
葡萄牙语2,121,88952,300,149
罗马尼亚语402,9049,663,544
斯洛伐克文674,35913,116,301
斯洛文尼亚634,48812,665,974
瑞典2,241,38645,665,947

句子对齐和删除XML后并行语料库的大小。


平行语料库(L1-L2)句子L1字英语单词
保加利亚英语406,934--9,886,291
捷克英语64660512,999,45515,625,264
丹麦语-英语1,968,80044,654,41748,574,988
德语-英语1,920,20944,548,49147,818,827
希腊语-英语1,235,976--31,929,703
西班牙语-英语1,965,73451,575,74849,093,806
爱沙尼亚语-英语651,74611,214,22115,685,733
芬兰语-英语1,924,94232,266,34347,460,063
法语-英语2,007,72351,388,64350,196,035
匈牙利英语624,93412,420,27615,096,358
意大利语-英语1,909,11547,402,92749,666,692
立陶宛语-英语635,14611,294,69015,341,983
拉脱维亚语-英语637,59911,928,71615,411,980
荷兰语-英语1,997,77550,602,99449,469,373
波兰语-英语632,56512,815,54415,268,824
葡萄牙语-英语1,960,40749,147,82649,216,896
罗马尼亚英语399,3759,628,0109,710,331
斯洛伐克英语640,71512,942,43415,442,233
斯洛文尼亚语-英语623,49012,525,64415,021,497
瑞典语-英语1,862,23441,508,71245,703,795

Known Bugs

  • Some special HTML entities and noisy characters are not removed from the data.

  • Some recent Greek data has only parts of transcripts in the files.

Terms of Use

We are not aware of any copyright restrictions of the material. If you use this data in your research, please contactpkoehn@inf.ed.ac.uk. Please let us know if you find problems with the data or if you want the data for other language pairs. We recommend using the last quarter of 2000 for testing (2000-10 until 2000-12) for consistency in reporting research results on this data.

Acknowledgments

The work was in part supported by the EuroMatrixPlus project funded by the European Commission (7th framework Programme).


发表评论
0评