公开数据集

20万英语笑话文本数据集
Scene:
OCR/Text DetectionData Type:
Classification
Data Preview ?
24.57M
Data Structure ?
*数据结构实际以真实数据为准
发布时间: 2016年
这个数据库中有大约208000个笑话。
文件
目前数据集包含来自三个来源的笑话。
---------------------------------------------- reddit_jokes.json | 195K jokes | 7.40M tokens stupidstuff.json | 3.77K jokes | 396K tokens wocka.json | 10.0K jokes | 1.11M tokens ---------------------------------------------- TOTAL | 208K jokes | 8.91M tokens ----------------------------------------------
格式
每个文件都是一个JSON文档,其中包含一个笑话对象的平面列表。每个笑话对象总是具有基于数据集的附加字段的正文字段。显然这些笑话并不全是好笑的;我们希望可以找到最好的,排序在相关的其他领域。请注意,这个标题在许多情况下都是笑话的一部分(特别是对于Reddit提交的笑话)。
数据引用:
@misc{pungas, title={A dataset of English plaintext jokes.}, url={https://github.com/taivop/joke-dataset}, author={Pungas, Taivo}, year={2017}, publisher = {GitHub}, journal = {GitHub repository} }
数据使用声明:
- 1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
- 2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
- 3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
- 1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
- 1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
- 1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。
一、数据来源与展示说明:
二、所有权说明:
三、数据转载说明:
四、侵权与处理说明:
0 条相关评论