WikiLinks 一个大型跨文档指代消解英语语料数据
Wikilinks 是一个大型跨文档指代消解英语语料数据,从 Wikipedia 网站中的 300 万个实体中提取 4000 万的指代关系。从自由文本中...NLP,Languages Text
1.7G
1290
马萨诸塞大学
Stanford Sentiment Treebank 英文语义词表数据
StanfordSentimentTreebank 是一个由斯坦福大学标注的语义词汇数据,人工标注了9645个英语句子的语义树结构。...NLP Text
12.56M
1524
Stanford University
人工智能语料库-欧洲议会议事平行语料库,包括21种欧洲语言
Europarl平行语料库摘自欧洲议会的议事程序。它包括21种欧洲语言的版本:罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚...NLP Classification,Text
3.75G
2053
Philipp Koehn
Visual Genome 图像及图像内容语义信息的数据集
Visual Genome是一个数据集,一个知识库,一个将结构化图像概念连接到语言的持续努力。VisualGenome数据集是Stanford大学维护的...CNN 2D Box
14.94G
1680
Stanford University
186.97M
2099
TejasReddy
1.26G
1712
landlord
WikiText 英语词库 包含1亿个词汇的英文词库数据
WikiText英语词库数据(TheWikiTextLongTermDependencyLanguageModelingDataset)WikiText长期依赖语言建模数据集是一个包含1亿...NLP Text
373.28M
1730
Stephen Merity
762.56M
2591
欧盟科学中心
311.27M
2416
ICWSM
reddit 250万个帖子数据
美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集,来自订阅者的前2,500个子评价,从2013年8...NLP Text
437.79M
2310
reddit
Multi-Domain Sentiment Dataset--多域情感数据集
多域情感数据集包含从Amazon.com获取的许多产品类型(域)的产品评论。一些域名(书籍和DVD)有成千上万的评论。其他(乐器)只...NLP Text
1.53M
1757
Mark Dredze
WMT 2011 News Crawl 机器翻译数据
WMT2011NewsCrawldata 是一个自然语言翻译数据,从 Europarlcorpus 语料中提取得到,包括:French-English、Spanish-English、Ge...NLP Text
25.01G
1299
Europarl
人民日报词性标注语料数据(199801)
人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份...NLP Text
2.81M
1463
人民日报
250万Reddit帖子数据
这是来自订阅者的前2500个子目录中的前1000个帖子的历史数据集,该数据是在2013年8月15日至20日之间从reddit中提取的。这是reddi...NLP Text
452.85M
1213
Reddit
25.44M
2115
Rishabh Misra
48.93M
1327
爱尔兰时报
LibriSpeech ASR corpus 语音数据
LibriSpeech ASR corpus 是一个语音数据,包括 1000小时 的英文发音和对应文字。标识符:SLR12摘要:大规模(1000小时)阅读英语...NLP Audio
8.14G
2050
Vassil Panayotov
Google Audioset 音频数据集
AudioSet 包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(片段来自 YouTube 视频)。音频本体...NLP Audio
2.41G
2692
Google
419.81M
1565
宾夕法尼亚大学
THUYG-20 维吾尔语语音数据
摘要:免费的维吾尔语言数据库由CSLT @清华大学和新疆大学发布类别:演讲许可证:Apache License v.2.0介绍THUGY20是由语音和语...NLP Audio
6.12G
2622
清华大学



















