公开数据集

多模态仇恨言语，150000条带有文本和图像的推特，用于仇恨检测

6.55G

1547 浏览

0 喜欢

2 次下载

0 条讨论

NLP,Online Communities,Image Data,Multiclass Classification,Social Networks Classification

现有的仇恨语音数据集仅包含文本数据。我们创建了一个新的手动注释的多模态仇恨语音数据集，该数据集由150000条推文组成，每条推......

数据介绍
文件预览
相关论文
Code
分享讨论(0)
使用声明

启动Notebook开发

数据结构 ? 6.55G

* 以上分析是由系统提取分析形成的结果，具体实际数据为准。

README.md

现有的仇恨语音数据集仅包含文本数据。我们创建了一个新的手动注释的多模态仇恨语音数据集，该数据集由150000条推文组成，每条推文都包含文本和图像。我们称数据集为MMHS150K。

推特收集

我们使用推特API收集了2018年9月至2019年2月的实时推文，选择了包含仇恨言论推文中更常见的51个仇恨语术语中的任何一个的推文。我们过滤掉了转发、包含少于三个单词的推文和包含色情相关术语的推文。从选择中，我们保留了包含图像的图像并下载了它们。Twitter根据其政策应用仇恨言论过滤器和其他类型的内容控制，尽管监管是基于用户的报告。因此，当我们从实时发布中收集推文时，我们得到的内容还没有通过任何过滤。

批注

我们使用众包平台Amazon Mechanical Turk对收集的推文进行注释。在那里，我们给了员工仇恨言论的定义，并展示了一些例子，以使任务更清晰。然后，我们展示推文文本和图片，并要求他们将其分为6类：没有对任何社区的攻击、种族主义、性别歧视、同性恋、基于宗教的攻击或对其他社区的攻击。15万条推文中的每一条都由3名不同的员工标记，以缓解员工之间的差异。从AMT获得的原始注释可与数据集一起下载。

我们从注释者那里收到了很多宝贵的反馈。他们中的大多数人都正确地理解了这项任务，但由于它的主观性，他们感到担忧。这确实是一项主观任务，高度依赖于注释者的信念和敏感性。然而，我们希望攻击越强，注释越清晰，这是我们更感兴趣检测的出版物。下面是每个类中标记的推文的百分比，以及最常见关键词的讨厌和不讨厌推文的比例。

暂无相关内容。

分享你的想法

去分享你的想法~~

全部内容

欢迎交流分享

开始分享您的观点和意见，和大家一起交流分享.

数据使用声明：

一、数据来源与展示说明：

1、该数据来自于互联网数据采集或服务商的提供，本平台为用户提供数据集的展示与浏览。
2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
3、数据集基本信息来自数据原地址或数据提供方提供的信息，如数据集描述中有描述差异，请以数据原地址或服务商原地址为准。

二、所有权说明：

1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。

三、数据转载说明：

1、如您需要转载本站数据，请保留原数据地址及相关版权声明。

四、侵权与处理说明：

1、如本站中的部分数据涉及侵权展示，请及时联系本站，我们会安排进行数据下线。

所需积分：

45 去赚积分？

1547浏览
2下载
0点赞
收藏
分享

今日排行

本月搜索

Dataset Category