Description
Visual Question Answering (VQA) 是一个针对图像内容进行自然语言问答数据集,其中有关图像的自然语言问题和答案需要对图像内容、自然语言和常识进行智能运用才能回答。包括 25 万张图像,每张图片 3 个自然语言描述的问题,每个问题 10 个标准答案,3 个近似答案。
265,016张图像(COCO和抽象场景)
每张图片至少3个问题(平均5.4个问题)
每个问题10个基本事实答案
每个问题3个合理(但可能不正确)的答案
自动评估指标