Description
Europarl平行语料库摘自欧洲议会的议事程序。它包括21种欧洲语言的版本:罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚语),日耳曼语(英语,荷兰语,德语,丹麦语,瑞典语),斯拉维克(保加利亚语,捷克语,波兰语,斯洛伐克语,斯洛文尼亚语),芬尼-乌格里克语(芬兰文,匈牙利文,爱沙尼亚文),波罗的海文(拉脱维亚文,立陶宛文)和希腊文。
语料库的大小
删除XML后单语言数据的大小。
语言 | 句子 | 话 |
---|---|---|
保加利亚语 | 411,636 | -- |
捷克文 | 668,595 | 13,195,311 |
丹麦文 | 2,323,099 | 47,761,381 |
德语 | 2,176,537 | 47,236,849 |
希腊语 | 1,517,141 | -- |
英语 | 2,218,201 | 53,974,751 |
西班牙文 | 2,123,835 | 54,806,927 |
爱沙尼亚语 | 692,210 | 11,358,009 |
芬兰 | 2,119,515 | 33,708,706 |
法文 | 2,190,579 | 54,202,850 |
匈牙利 | 658,824 | 12,606,986 |
义大利文 | 2,081,669 | 50,259,169 |
立陶宛语 | 678,665 | 11,512,131 |
拉脱维亚语 | 666,026 | 12,085,228 |
荷兰人 | 2,333,816 | 53,487,257 |
抛光 | 387,490 | 7,087,016 |
葡萄牙语 | 2,121,889 | 52,300,149 |
罗马尼亚语 | 402,904 | 9,663,544 |
斯洛伐克文 | 674,359 | 13,116,301 |
斯洛文尼亚 | 634,488 | 12,665,974 |
瑞典 | 2,241,386 | 45,665,947 |
句子对齐和删除XML后并行语料库的大小。
平行语料库(L1-L2) | 句子 | L1字 | 英语单词 |
---|---|---|---|
保加利亚英语 | 406,934 | -- | 9,886,291 |
捷克英语 | 646605 | 12,999,455 | 15,625,264 |
丹麦语-英语 | 1,968,800 | 44,654,417 | 48,574,988 |
德语-英语 | 1,920,209 | 44,548,491 | 47,818,827 |
希腊语-英语 | 1,235,976 | -- | 31,929,703 |
西班牙语-英语 | 1,965,734 | 51,575,748 | 49,093,806 |
爱沙尼亚语-英语 | 651,746 | 11,214,221 | 15,685,733 |
芬兰语-英语 | 1,924,942 | 32,266,343 | 47,460,063 |
法语-英语 | 2,007,723 | 51,388,643 | 50,196,035 |
匈牙利英语 | 624,934 | 12,420,276 | 15,096,358 |
意大利语-英语 | 1,909,115 | 47,402,927 | 49,666,692 |
立陶宛语-英语 | 635,146 | 11,294,690 | 15,341,983 |
拉脱维亚语-英语 | 637,599 | 11,928,716 | 15,411,980 |
荷兰语-英语 | 1,997,775 | 50,602,994 | 49,469,373 |
波兰语-英语 | 632,565 | 12,815,544 | 15,268,824 |
葡萄牙语-英语 | 1,960,407 | 49,147,826 | 49,216,896 |
罗马尼亚英语 | 399,375 | 9,628,010 | 9,710,331 |
斯洛伐克英语 | 640,715 | 12,942,434 | 15,442,233 |
斯洛文尼亚语-英语 | 623,490 | 12,525,644 | 15,021,497 |
瑞典语-英语 | 1,862,234 | 41,508,712 | 45,703,795 |
Known Bugs
Some special HTML entities and noisy characters are not removed from the data.
Some recent Greek data has only parts of transcripts in the files.
Terms of Use
We are not aware of any copyright restrictions of the material. If you use this data in your research, please contactpkoehn@inf.ed.ac.uk. Please let us know if you find problems with the data or if you want the data for other language pairs. We recommend using the last quarter of 2000 for testing (2000-10 until 2000-12) for consistency in reporting research results on this data.
Acknowledgments
The work was in part supported by the EuroMatrixPlus project funded by the European Commission (7th framework Programme).