Select Language

AI社区

公开数据集

多领域情感数据集(2.0版)

多领域情感数据集(2.0版)

1.53G
413 浏览
0 喜欢
1 次下载
0 条讨论
MNIST Classification

多域情感数据集包含来自Amazon.com的许多产品类型(域)的产品评论。某些域(书籍和DVD)具有数十万条评论。其他(乐器)只有几......

数据结构 ? 1.53G

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    多域情感数据集包含来自Amazon.com的许多产品类型(域)的产品评论。某些域(书籍和DVD)具有数十万条评论。其他(乐器)只有几百个。评论包含星级(1到5颗星),可以根据需要将其转换为二进制标签。此页面包含有关数据的一些描述。

    有关数据集的一些注意事项。

    1)unprocessed.tar.gz包含原始数据。 2)processing.acl.tar.gz包含经过预处理和平衡的数据。也就是说,Blitzer等人的格式。(ACL 2007) 3)已处理.realvalued.tar.gz包含经过预处理和平衡的数据,但是具有星数,而不仅仅是正数或负数。也就是说,Mansour等人的格式。(NIPS 2009)

    预处理的数据是每个文档一行,格式为:

    feature:

    标签始终位于每个文档 的末尾线。

    4)每个目录对应一个域。每个目录包含几个文件,我们将简要描述它们: all.review-该域的所有评论,以其原始格式 positive.review-正面评论 负面.review- 负面评论 unlabeled.review-已 处理未标记评论.review -预处理评论(见下文) 已处理评论平衡-预处理评论,在正面和负面之间均等地平衡。

    5)虽然正面和负面文件包含正面和负面评论,但不一定是任何引用的论文中使用的拆分。它们只是尽可能地存在初始分裂。

    6)每个(未处理的)文件都包含用于对评论进行编码的伪XML方案。大多数字段是不言自明的。评论具有唯一的ID字段,该字段不是非常唯一。如果它具有两个唯一的id字段,请忽略仅包含一个数字的字段。

    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:10 去赚积分?
    • 413浏览
    • 1下载
    • 0点赞
    • 收藏
    • 分享