低资源语言的问答:Tigrinya的基准数据集和模型

Fitsum Gaim, Wonsuk Yang, Hancheol Park 以及 Jong Park
最近的进步,达到接近人类水平在一些基准测试中的表现。然而这些进展集中在高资源局域网上英语等语言,而任务仍然存在大多数其他语言未经探索,主要是由于缺乏注释数据集。这项工作提供了一个东非国家的本地QA数据集语言,提格里尼亚。数据集包含10.6K跨越572段的问答对摘自290篇...

用户分享观点: