Select Language

AI社区

公开数据集

人工智能语料库-欧洲议会议事平行语料库,包括21种欧洲语言

人工智能语料库-欧洲议会议事平行语料库,包括21种欧洲语言

3.75G
603 浏览
1 喜欢
0 次下载
0 条讨论
NLP Classification,Text

Europarl平行语料库摘自欧洲议会的议事程序。它包括21种欧洲语言的版本:罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚......

数据结构 ? 3.75G

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    Europarl平行语料库摘自欧洲议会的议事程序。它包括21种欧洲语言的版本:罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚语),日耳曼语(英语,荷兰语,德语,丹麦语,瑞典语),斯拉维克(保加利亚语,捷克语,波兰语,斯洛伐克语,斯洛文尼亚语),芬尼-乌格里克语(芬兰文,匈牙利文,爱沙尼亚文),波罗的海文(拉脱维亚文,立陶宛文)和希腊文。

    语料库的大小

    删除XML后单语言数据的大小。

    语言句子
    保加利亚语411,636--
    捷克文668,59513,195,311
    丹麦文2,323,09947,761,381
    德语2,176,53747,236,849
    希腊语1,517,141--
    英语2,218,20153,974,751
    西班牙文2,123,83554,806,927
    爱沙尼亚语692,21011,358,009
    芬兰2,119,51533,708,706
    法文2,190,57954,202,850
    匈牙利658,82412,606,986
    义大利文2,081,66950,259,169
    立陶宛语678,66511,512,131
    拉脱维亚语666,02612,085,228
    荷兰人2,333,81653,487,257
    抛光387,4907,087,016
    葡萄牙语2,121,88952,300,149
    罗马尼亚语402,9049,663,544
    斯洛伐克文674,35913,116,301
    斯洛文尼亚634,48812,665,974
    瑞典2,241,38645,665,947

    句子对齐和删除XML后并行语料库的大小。


    平行语料库(L1-L2)句子L1字英语单词
    保加利亚英语406,934--9,886,291
    捷克英语64660512,999,45515,625,264
    丹麦语-英语1,968,80044,654,41748,574,988
    德语-英语1,920,20944,548,49147,818,827
    希腊语-英语1,235,976--31,929,703
    西班牙语-英语1,965,73451,575,74849,093,806
    爱沙尼亚语-英语651,74611,214,22115,685,733
    芬兰语-英语1,924,94232,266,34347,460,063
    法语-英语2,007,72351,388,64350,196,035
    匈牙利英语624,93412,420,27615,096,358
    意大利语-英语1,909,11547,402,92749,666,692
    立陶宛语-英语635,14611,294,69015,341,983
    拉脱维亚语-英语637,59911,928,71615,411,980
    荷兰语-英语1,997,77550,602,99449,469,373
    波兰语-英语632,56512,815,54415,268,824
    葡萄牙语-英语1,960,40749,147,82649,216,896
    罗马尼亚英语399,3759,628,0109,710,331
    斯洛伐克英语640,71512,942,43415,442,233
    斯洛文尼亚语-英语623,49012,525,64415,021,497
    瑞典语-英语1,862,23441,508,71245,703,795

    Known Bugs

    • Some special HTML entities and noisy characters are not removed from the data.

    • Some recent Greek data has only parts of transcripts in the files.

    Terms of Use

    We are not aware of any copyright restrictions of the material. If you use this data in your research, please contactpkoehn@inf.ed.ac.uk. Please let us know if you find problems with the data or if you want the data for other language pairs. We recommend using the last quarter of 2000 for testing (2000-10 until 2000-12) for consistency in reporting research results on this data.

    Acknowledgments

    The work was in part supported by the EuroMatrixPlus project funded by the European Commission (7th framework Programme).


    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:20 去赚积分?
    • 603浏览
    • 0下载
    • 1点赞
    • 收藏
    • 分享