魔鬼在于错误:利用大型语言模型进行细粒度机器翻译评估

Patrick Fernandes、Daniel Deutsch、Mara Finkelstein、Parker Riley、André F. T. Martins、Graham Neubig、Ankush Garg、Jonathan H. Clark、Markus Freitag和Orhan Firat
自动评估机器翻译(MT)是推动MT系统快速迭代开发的关键工具。虽然在估计单一标量质量得分方面取得了相当大的进展,但当前的度量标准缺乏更详细的方案所具备的注释单个错误的信息,例如多维质量度量(MQM)。在本文中,我们提出了AutoMQM,一种提示技术,它利用大型语言模型(LLM...

用户分享观点: