公开数据集

AI2推理挑战赛(ARC)2018数据集
Scene:
MNISTData Type:
Classification
Data Preview ?
649.3M
Data Structure ?
*数据结构实际以真实数据为准
ARC数据集包含从各种来源提取的7,787项科学考试问题,包括由AI2附属研究合作伙伴授权提供的科学问题。这些是纯文本的英语考试题,涵盖了文件中指示的多个年级。每个问题都有一个选择结构(通常有4个答案选项)。这些问题分为2590个“难题”挑战题集(检索和共现方法均无法正确回答的问题)和5197个简单题集。每个都预先分为训练,开发和测试集,如下所示:
难题训练集:1,119
难题开发集:299
难题测试集:1,172
简易训练集:2,251
简易开发集:570
简易测试集:2,376
每一套都以CSV和JSON两种格式提供。CSV文件在一个单元格中包含问题的全文及其答案选项。JSON文件包含问题的拆分版本,其中问题文本已通过编程与答案选项分开。
ARC语料库
ARC语料库包含1400万无序,与科学相关的句子,包括与ARC相关的知识,并作为应对挑战的起点。语料库包含以下句子:从Web下载的与科学有关的文档;Wiktionary的词典定义以及Simple Wikipedia的被标记为科学的文章。有关其构造的详细信息,请参阅(Clark et al。,2018)。请注意,对“挑战”使用语料库是完全可选的,并且系统不限于此语料库。请参阅下载中包含的自述文件,以获取更多信息和该语料库的使用条款。
数据使用声明:
- 1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
- 2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
- 3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
- 1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
- 1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
- 1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。
一、数据来源与展示说明:
二、所有权说明:
三、数据转载说明:
四、侵权与处理说明:
0 条相关评论