Select Language

公开数据集

人工智能语料库-Ubuntu对话语料库 包含2600万次对话数据

人工智能语料库-Ubuntu对话语料库 包含2600万次对话数据

Scene:

NLP

Data Type:

Text
所需积分:13 去赚积分?
  • 1927浏览
  • 43下载
  • 5点赞
  • 收藏
  • 分享

贡献者查看主页

小小程序员

致力于人工智能业务的研究、数据集处理。

Data Preview ? 2.7G

    Data Structure ?

    *数据结构实际以真实数据为准

    建立对话系统(人类可以与虚拟代理进行自然对话)是自然语言处理中的一项艰巨任务,也是许多正在进行的研究的重点。一些挑战包括随着时间的推移将引用链接到同一实体,跟踪先前对话中发生的情况以及生成适当的响应。这种自然发生的对话的语料库有助于建立和评估对话系统。

    内容概述:

    新的Ubuntu对话语料库包括从Ubuntu聊天记录中提取的近一百万个两人对话,用于获得针对与Ubuntu相关的各种问题的技术支持。每次对话平均8轮,至少3轮。所有对话均以文本形式(而非音频)进行。

    完整的数据集包含930,000个对话和超过1亿个单词该数据集包含分布在.csv文件中的该数据集的样本。该数据集包含超过2.69亿个单词的文本,分布了2600万转。

    • 文件夹:对话所来自的文件夹。每个文件都包含一个文件夹中的对话。

    • dialogID:特定对话的ID号。对话ID在各个文件夹中重复使用。

    • date:此对话的发送时间的时间戳。

    • 来自:发送该行对话的用户。

    • 收件人:他们正在答复的用户。对话的第一轮,该字段为空白。

    • 文字:该轮对话的文字,用双引号(“)隔开。换行符(\ n)已被删除。

    引用:

    该数据集由Ryan Lowe,Nissan Pow,Iulian V.Serban†和Joelle Pineau收集。在Apache许可2.0下可以在此处使用。如果您在工作中使用此数据,请提供以下引用:

    Ryan Lowe,Nissan Pow,Iulian V. Serban和Joelle Pineau,“ Ubuntu对话语料库:用于非结构化多对话系统的大型数据集”,SIGDial2015。


    0相关评论