Select Language

AI社区

公开数据集

reddit 250万个帖子数据

reddit 250万个帖子数据

437.79M
883 浏览
1 喜欢
2 次下载
0 条讨论
NLP Text

美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集,来自订阅者的前2,500个子评价,从2013年8......

数据结构 ? 437.79M

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    美国 reddit 新闻网站最受欢迎的 2500 名发布者每家媒体 1000 个发布内容及评论数据集,来自订阅者的前2,500个子评价,从2013年8月15日至20日期间从reddit提取。

    这是什么?

    这是来自reddit的热门帖子的数据集。它包含来自前2,500个子评价的前1,000个历史帖子,总共有250万个帖子。顶级子订单由订户数确定,位于清单文件中。

    这些数据是在2013年8月15日至20日期间提取的。

    每个文件都是一个CSV,其相关的subreddit作为其文件名。每个CSV文件都包含一个标题行。

    这有什么用?

    这是一个简单的例子:这是Serendipity上最受投票的域名的细分。(是的,作为饼图。)

    使用TF-IDF找到subreddit的重要术语。做语义分析等。


    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:10 去赚积分?
    • 883浏览
    • 2下载
    • 1点赞
    • 收藏
    • 分享