公开数据集

80M 977
5M 888
Twitter情感分析训练语料库 推特情感分析数据集包含1,578,627条分类推文,每一行都被标记为1代表积极情感,0代表消极情感。我建议使用1/10的语料库来测试你...MNIST Classification
53.8M 1129
SMS垃圾邮件收集数据集,标记为垃圾邮件或合法短信的集合 SMS Spam Corpus v.0.1是一组SMS短信标签消息,已收集用于SMS Spam研究。它包含两个英文短信息集合,包含1084和1319条消息,标记...MNIST Classification
503K 1608
TED平行语料库 TED平行语料库是多语言平行语料库,包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。 多语言的平行...MNIST Classification
872.9M 1342
Euler图学习开源数据集 本数据集根据2018年10月23日多类目下采样得到的用户点击行为数据,构建得到图数据。注:列分割符为”||”节点编号:图数据包括两...MNIST Classification
243.41M 653
腾讯AI Lab开源大规模高质量中文词向量数据 腾讯AI Lab此次公开的中文词向量数据包含800多万中文词汇,其中每个词对应一个200维的向量。相比现有的中文词向量数据,腾讯AI L...NLP,MNIST Classification
39.4G 986
处理单词和物体时的fMRI图像数据 OpenfMRI数据库(Poldrack等人,2013年;Poldrack和Gorgolewski,2015年)是一个使用MRI和EEG技术收集的人脑成像数据库。它从201...Image Search Classification
3.14G 1058
美国手语中字母的图像数据集 数据集是来自美国手语的字母图像的集合,分为29个文件夹,代表各个类别。训练数据集包含87,000张200x200像素的图像。有29个...NLP,Image Search Classification
1.03G 1456
手语数字图片数据集 手语(也称为手语)是使用手动交流传达含义的语言。这可以包括同时采用手势,运动,手指,手臂或身体的方向以及面部表情来传达讲...OCR/Text Detection Classification
16.4M 1153
20万英语笑话文本数据集 发布时间: 2016年这个数据库中有大约208000个笑话。文件目前数据集包含来自三个来源的笑话。---------------------------------...OCR/Text Detection Classification
24.57M 1197
心灵鸡汤文本数据集 来自github的一个毒鸡汤文本数据集,该数据是网站 http://www.nows.fun/ 的站点数据。数据量:1232条。文件格式为sql...OCR/Text Detection Classification
125K 1611
人民日报词性标注语料数据(199801) 人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份...OCR/Text Detection Classification
3.37M 1342
Chinese handwritten digits MNIST dataset One hundred Chinese participated in the data collection. Each participant used a standard black ink pen to write all 15...MNIST Classification,Text
16.7M 1301
MNIST database The MNIST database of handwritten digits, available from this page, has atraining set of 60,000 examples, and a test se...MNIST Classification
11M 1539
QMNIST The exact preprocessing steps used to construct the MNIST datasethave long been lost. This leaves us with no reliable wa...MNIST Classification
20.34M 1298
Fashion-MNIST Fashion-MNIST is a dataset of Zalando's article images—consisting of a training set of60,000 examples and a test se...MNIST,Fashion Classification
29.45M 1112
MultiMNIST The MultiMNIST training and test dataset is generated by overlaying a digit on top of another digitfrom the same set (tr...MNIST Classification
43.31M 1194
Kannada-MNIST Here, we disseminate a new handwritten digits-dataset, termed Kannada-MNIST, for the Kannadascript, that can potentially...MNIST Classification
64.19M 982
MNIST The MNIST database of handwritten digits, has a training set of 60,000 examples, and a testset of 10,000 examples. It is...MNIST Classification
11.06M 1008