公开数据集
数据结构 ? 2.7G
Data Structure ?
* 以上分析是由系统提取分析形成的结果,具体实际数据为准。
README.md
建立对话系统(人类可以与虚拟代理进行自然对话)是自然语言处理中的一项艰巨任务,也是许多正在进行的研究的重点。一些挑战包括随着时间的推移将引用链接到同一实体,跟踪先前对话中发生的情况以及生成适当的响应。这种自然发生的对话的语料库有助于建立和评估对话系统。
内容概述:
新的Ubuntu对话语料库包括从Ubuntu聊天记录中提取的近一百万个两人对话,用于获得针对与Ubuntu相关的各种问题的技术支持。每次对话平均8轮,至少3轮。所有对话均以文本形式(而非音频)进行。
完整的数据集包含930,000个对话和超过1亿个单词。该数据集包含分布在.csv文件中的该数据集的样本。该数据集包含超过2.69亿个单词的文本,分布了2600万转。
文件夹:对话所来自的文件夹。每个文件都包含一个文件夹中的对话。
dialogID:特定对话的ID号。对话ID在各个文件夹中重复使用。
date:此对话的发送时间的时间戳。
来自:发送该行对话的用户。
收件人:他们正在答复的用户。对话的第一轮,该字段为空白。
文字:该轮对话的文字,用双引号(“)隔开。换行符(\ n)已被删除。
引用:
该数据集由Ryan Lowe,Nissan Pow,Iulian V.Serban†和Joelle Pineau收集。在Apache许可2.0下可以在此处使用。如果您在工作中使用此数据,请提供以下引用:
Ryan Lowe,Nissan Pow,Iulian V. Serban和Joelle Pineau,“ Ubuntu对话语料库:用于非结构化多对话系统的大型数据集”,SIGDial2015。
暂无相关内容。
暂无相关内容。
- 分享你的想法
去分享你的想法~~
全部内容
欢迎交流分享
开始分享您的观点和意见,和大家一起交流分享.
数据使用声明:
- 1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
- 2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
- 3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
- 1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
- 1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
- 1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。