Select Language

AI社区

公开数据集

GitHub NLP分析的标题和描述 超过800万个GitHub发布了标题和描述 Over 8 million GitHub issue titles and descriptions from 2017. Prepared from instructions at How To Create Data Products...NLP,Software Classification
2.85G 439
街景房屋编号(SVHN)数据集,可用于对象识别算法的真实图像数据集 SVHN是一个用于开发机器学习和对象识别算法的真实图像数据集,对数据预处理和格式化的要求最低。它可以被视为与MNIST在风格上相...NLP,OCR/Text Detection,Business,Image Search 2D Box
3.91G 1395
街景文本(SVT)数据集,来自谷歌街景的图像数据 The Street View Text (SVT) dataset was harvested from Google Street View. Image text in this data exhibits high variabil...NLP,Energy 2D Box,Classification
112.7M 910
KAIST场景文本数据库 KAIST场景文本数据集包含3000张在不同环境下拍摄的图像,包括不同照明条件下(晴朗的白天、夜晚、强人工灯光等)的室外和室内场...NLP Classification
355M 585
MSRA文本检测500数据库(MSRA-TD500) MSRA文本检测500数据库(MSRA-TD500),作为评估文本检测算法的基准,目的是跟踪自然图像中文本检测领域的最新进展,尤其是检测...NLP 2D Box
96.05M 1068
自然场景图像的合成文本,包含80万张图像和大约800万个合成单词实例 这是一个综合生成的数据集,其中word实例被放置在自然场景图像中,同时考虑场景布局。该数据集由80万张图像和大约800万个合成单...NLP,Animal 2D Box
37.9G 400
IIIT 5K word数据集,包含广告牌、招牌、门牌号、门牌、电影海报等查询词 The IIIT 5K-word dataset is harvested from Google image search. Query words like billboards, signboard, house numbers, h...NLP Classification
101M 393
国产剧豆瓣评论数据 国产剧豆瓣评论数据...NLP 2D Box
3.66M 136
企业重大合同数据 企业重大合同数据...NLP N/A
53.36M 180
IAM 50个最常见的作家手写数据集 IAM手写数据集是几位作者的手写文章的集合。通常,他们使用该数据根据作家的写作风格对作家进行分类。解决此类问题的传统方法是...NLP Text
186.97M 974
40万个手写姓名图像数据集 该数据集包括通过慈善项目收集的超过40万个手写姓名,以支持世界各地的弱势儿童。字符识别利用图像处理技术将扫描文档上的字符转...NLP 2D Box
1.26G 694
Twitter-dataset 数据集 ICWSM 2010论文中的数据可从以下链接获得。我们的数据集已匿名化,以保护用户自己的隐私。我们只发布有关Twitter链接结构的信息...NLP Text
311.27M 1019
reddit 250万个帖子数据 美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集,来自订阅者的前2,500个子评价,从2013年8...NLP Text
437.79M 875
Multi-Domain Sentiment Dataset--多域情感数据集 多域情感数据集包含从Amazon.com获取的许多产品类型(域)的产品评论。一些域名(书籍和DVD)有成千上万的评论。其他(乐器)只...NLP Text
1.53M 807
WMT 2011 News Crawl 机器翻译数据 WMT2011NewsCrawldata 是一个自然语言翻译数据,从 Europarlcorpus 语料中提取得到,包括:French-English、Spanish-English、Ge...NLP Text
25.01G 537
250万Reddit帖子数据 这是来自订阅者的前2500个子目录中的前1000个帖子的历史数据集,该数据是在2013年8月15日至20日之间从reddit中提取的。这是reddi...NLP Text
452.85M 511
新闻类别数据集,包含20万条新闻标题 该数据集包含从HuffPost获得的2012年至2018年的大约20万条新闻标题。在该数据集上训练的模型可用于识别未跟踪新闻文章的标签或识...NLP Text
25.44M 684
爱尔兰时报新闻数据集 该新闻数据集由爱尔兰境内的《爱尔兰时报》发布的148万个头条新闻组成。创建于160年前;该机构可以长期观察欧洲发生的事情。内容...NLP Text
48.93M 504
Twitter 社交数据集 This dataset consists of 'circles' (or 'lists') from Twitter. Twitter data was crawled from public sourc...NLP Classification
31.4M 783
Google+ 社交圈子数据集 This dataset consists of 'circles' from Google+. Google+ data was collected from users who had manually shared t...NLP Classification
773M 555