自然语言处理
  • 人工智能语料库-Ubuntu对话语料库 包含2600万次对话数据

    2.7G

    3551

    44

    NLP

    人工智能语料库-Ubuntu对话语料库 包含2600万次对话数据
    Text
    Rachael Tatman
  • Visual Question Answering V2.0  一个针对图像内容进行自然语言问答的数据集

    30.7G

    1218

    1

    NLP

    Visual Question Answering V2.0 一个针对图像内容进行自然语言问答的数据集
    Text
    VQA
  • IAM 50个最常见的作家手写数据集

    186.97M

    1595

    18

    NLP

    IAM 50个最常见的作家手写数据集
    Text
    TejasReddy
  • 40万个手写姓名图像数据集

    1.26G

    1326

    35

    NLP

    40万个手写姓名图像数据集
    2D Box
    landlord
  • WikiText 英语词库 包含1亿个词汇的英文词库数据

    373.28M

    1395

    1

    NLP

    WikiText 英语词库 包含1亿个词汇的英文词库数据
    Text
    Stephen Merity
  • JRC Names 实体专有名词库

    762.56M

    1981

    7

    NLP

    JRC Names 实体专有名词库
    Text
    欧盟科学中心
  • Twitter-dataset 数据集

    311.27M

    1875

    17

    NLP

    Twitter-dataset 数据集
    Text
    ICWSM
  • reddit 250万个帖子数据

    437.79M

    1782

    2

    NLP

    reddit 250万个帖子数据
    Text
    reddit
  • Multi-Domain Sentiment Dataset--多域情感数据集

    1.53M

    1439

    49

    NLP

    Multi-Domain Sentiment Dataset--多域情感数据集
    Text
    Mark Dredze
  • WMT 2011 News Crawl 机器翻译数据

    25.01G

    1084

    0

    NLP

    WMT 2011 News Crawl 机器翻译数据
    Text
    Europarl
  • 人民日报词性标注语料数据(199801)

    2.81M

    1278

    15

    NLP

    人民日报词性标注语料数据(199801)
    Text
    人民日报
  • 250万Reddit帖子数据

    452.85M

    941

    0

    NLP

    250万Reddit帖子数据
    Text
    Reddit
  • 新闻类别数据集,包含20万条新闻标题

    25.44M

    1656

    5

    NLP

    新闻类别数据集,包含20万条新闻标题
    Text
    Rishabh Misra
  • 爱尔兰时报新闻数据集

    48.93M

    961

    1

    NLP

    爱尔兰时报新闻数据集
    Text
    爱尔兰时报
  • PubMed医学数据集: 包含提取的 3984 个医学句子

    9.4M

    1316

    10

    NLP

    PubMed医学数据集: 包含提取的 3984 个医学句子
    Classification
    appen
  • THUCTC 中文文本分类数据集

    1.1G

    3037

    8

    OCR/Text Detection

    THUCTC 中文文本分类数据集
    Classification
    清华大学自然语言处理与社会人文计算实验室
  • Twitter 社交数据集

    31.4M

    1770

    9

    NLP

    Twitter 社交数据集
    Classification
    Stanford University
  • Google+ 社交圈子数据集

    773M

    1141

    1

    NLP

    Google+ 社交圈子数据集
    Classification
    Stanford University
  • Facebook圈子数据集

    1M

    1704

    21

    NLP

    Facebook圈子数据集
    Classification
    Stanford University
  • Europarl用于统计机器翻译的并行语料库(21种欧洲语言的版本)

    1.46G

    1095

    0

    NLP

    Europarl用于统计机器翻译的并行语料库(21种欧洲语言的版本)
    Classification
    University of Edinburgh