Select Language

AI社区

公开数据集

新闻分类数据集sample(thu) 新闻分类数据集sample(thu)...NLP Text
12M 691
百科类问答json版,含有150万个预先过滤过的、高质量问题和答案 本数据集含有150万个预先过滤过的、高质量的百科类问题和答案。数据集总共有492个类别,其中频率达到或超过10次的类别有434个。...NLP Text
1.5G 699
文字袋数据集 可用于了解路透社的哪些文章是关于“企业收购”的 Data Set Information:The original data were formatted by Thorsten Joachims in the “bag-of-words” representation. There...NLP Classification
1.21M 496
僧伽罗语数字词汇(2.0版),字母A到M Digital Glossary of Sinhala Prakrit (version 2.0), letters A to M...NLP Classification
9.88M 385
僧伽罗语数字词汇(1.0版),字母A到M 数据集 僧伽罗语数字词汇表(1.0版),字母A至M,链接至www.siddham.net...NLP Classification
9.83M 378
人民日报词性标注语料数据(199801) 人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份...NLP Text
2.81M 786
Twitter情感分析训练语料库 推特情感分析数据集包含1,578,627条分类推文,每一行都被标记为1代表积极情感,0代表消极情感。我建议使用1/10的语料库来测试你...MNIST Classification
53.8M 542
20万英语笑话文本数据集 发布时间: 2016年这个数据库中有大约208000个笑话。文件目前数据集包含来自三个来源的笑话。---------------------------------...OCR/Text Detection Classification
24.57M 425
人民日报词性标注语料数据(199801) 人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份...OCR/Text Detection Classification
3.37M 586
Nettalk语料库数据集 包括20008个带重音的对齐字母和语音表示法 该数据集是由Terry Sejnowski,现在在索尔克研究所和加利福尼亚大学圣地亚哥的基准集合。该数据集是与普林斯顿大学的查尔斯·罗...N/A N/A
175K 376
语法面部表情数据集,A-Z语法面部表情的名称和规格(目标或数据点) Data Set Information:面部表情的自动分析已广泛应用于不同的研究领域,如生物特征识别或情感分析。手语领域特别重视面部表情,...NLP Classification
19.2M 323
斯坦福大学的GloVe预训练的单词向量 GloVe is an unsupervised learning algorithm for obtaining vector representations for words. Training is performed on agg...Computer Science,Sports,Retail and Shopping Classification
989.9M 242
中国字符 20950,utf-8中的所有汉字及其发音数据集 中国字符 20950,utf-8中的所有汉字及其发音数据集...NLP,Comics and Animation Classification
1.2M 159
情绪相关文本数据集 情绪相关文本数据集...Movies and TV Shows Classification
11.3M 192
中国机器翻译研讨会,语料数据集 # DatasetThis dataset was created by Liling TanReleased under Other (specified in description)# ContentsIt contains the...Deep Learning,Computer Science Classification
6.6G 200
DBpedia语义网应用范例,提供42782篇维基百科文章提供了分类、分层类别 DBpedia (from DB for database) is a project aiming to extract structured content from the information created in Wikiped...Education,Text Data,Multiclass Classification,Text Mining Classification
443.28M 168
Mac Morpho,带有词性标签的巴西葡萄牙语新闻文本 The canonical metadata on NLTK:packageid=mac_morphoname=MAC-MORPHO:BrazilianPortuguesenewstextwithpart-of-speechtagswebp...Earth and Nature Classification
10.43M 338
斯坦福自然语言推理 (SNLI) 语料库的 Jsonl 格式 这是斯坦福大学自然语言推理(snLI)语料库的1.0版本。如果你使用这个语料库,请引用这篇论文: http://nlp.Stanford.edu/pubs/snli...Languages Classification
483.45M 220
Google News vectors negative Google News vectors negative...Clothing and Accessories Classification
3.64G 275