Select Language

AI社区

公开数据集

人工智能语料库-Ubuntu对话语料库 包含2600万次对话数据

人工智能语料库-Ubuntu对话语料库 包含2600万次对话数据

2.7G
2709 浏览
5 喜欢
44 次下载
0 条讨论
NLP Text

建立对话系统(人类可以与虚拟代理进行自然对话)是自然语言处理中的一项艰巨任务,也是许多正在进行的研究的重点。一些挑战包括......

数据结构 ? 2.7G

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    建立对话系统(人类可以与虚拟代理进行自然对话)是自然语言处理中的一项艰巨任务,也是许多正在进行的研究的重点。一些挑战包括随着时间的推移将引用链接到同一实体,跟踪先前对话中发生的情况以及生成适当的响应。这种自然发生的对话的语料库有助于建立和评估对话系统。

    内容概述:

    新的Ubuntu对话语料库包括从Ubuntu聊天记录中提取的近一百万个两人对话,用于获得针对与Ubuntu相关的各种问题的技术支持。每次对话平均8轮,至少3轮。所有对话均以文本形式(而非音频)进行。

    完整的数据集包含930,000个对话和超过1亿个单词该数据集包含分布在.csv文件中的该数据集的样本。该数据集包含超过2.69亿个单词的文本,分布了2600万转。

    • 文件夹:对话所来自的文件夹。每个文件都包含一个文件夹中的对话。

    • dialogID:特定对话的ID号。对话ID在各个文件夹中重复使用。

    • date:此对话的发送时间的时间戳。

    • 来自:发送该行对话的用户。

    • 收件人:他们正在答复的用户。对话的第一轮,该字段为空白。

    • 文字:该轮对话的文字,用双引号(“)隔开。换行符(\ n)已被删除。

    引用:

    该数据集由Ryan Lowe,Nissan Pow,Iulian V.Serban†和Joelle Pineau收集。在Apache许可2.0下可以在此处使用。如果您在工作中使用此数据,请提供以下引用:

    Ryan Lowe,Nissan Pow,Iulian V. Serban和Joelle Pineau,“ Ubuntu对话语料库:用于非结构化多对话系统的大型数据集”,SIGDial2015。


    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:13 去赚积分?
    • 2709浏览
    • 44下载
    • 5点赞
    • 收藏
    • 分享