公开数据集

谷歌AI自然语言对话数据集CCPE

1146 浏览

0 喜欢

10 次下载

0 条讨论

MNIST Classification

数据介绍
文件预览
相关论文
Code
分享讨论(0)
使用声明

启动Notebook开发

数据结构 ? 5M

* 以上分析是由系统提取分析形成的结果，具体实际数据为准。

README.md

CCPE 全称为 Coached Conversational Preference Elicitation，它是我们提出的一种在对话中获得用户偏好的新方法，即它允许收集自然但结构化的会话偏好。通过研究一个领域的对话，我们对人们如何描述电影偏好进行了简要的定量分析；并且向社区发布了 CCPE-M 数据集，该数据集中有超过 500 个电影偏好对话，表达了 10,000 多个偏好。

具体而言，它由 502 个对话框组成的数据集，在用户和助理之间用自然语言讨论电影首选项时有 12,000 个带注释的发音。它通过两个付费人群工作者之间的对话收集，其中一个工作人员扮演「助手」的角色，而另一个工作人员扮演「用户」的角色。「助手」按照 CCPE 方法引出关于电影的「用户」偏好。

助理提出的问题旨在尽量减少「用户」用来尽可能多地传达他或她的偏好的术语中的偏见，并以自然语言获得这些偏好。每个对话框都使用实体提及、关于实体表达的首选项、提供的实体描述以及实体的其他语句进行注释。

偏好启发

在面向电影的 CCPE 数据集中，冒充用户的个人对着麦克风讲话，并且音频直接播放给冒充数字助理的人。「助手」则输出他们的响应，然后通过文本到语音向用户播放。

这些双人自然对话包括在使用合成对话难以复制的双方之间自发发生的不流畅和错误。这创建了一系列关于人们电影偏好的自然且有条理的对话。

在对这个数据集的观察中，我们发现人们描述他们的偏好的方式非常丰富。该数据集是第一个大规模表征该丰富度的数据集。我们还发现，偏好也称为选项的特征，并不总是与智能助理的方式相匹配，或者与推荐网站的方式相匹配。换言之，你最喜爱的电影网站或服务上的过滤器，可能与你在寻求个人推荐时描述各种电影时使用的语言并不匹配。

有关 CCPE 数据集的详细信息，请参阅我们的研究论文（https://ai.google/research/pubs/pub48414），该论文将在 2019 年话语与对话特别兴趣小组（https://www.aclweb.org/portal/content/sigdial-2019-annual-meeting-special-interest-group-discourse-and-dialogue-call-special）年会上发布。

暂无相关内容。

分享你的想法

去分享你的想法~~

全部内容

欢迎交流分享

开始分享您的观点和意见，和大家一起交流分享.

数据使用声明：

一、数据来源与展示说明：

1、该数据来自于互联网数据采集或服务商的提供，本平台为用户提供数据集的展示与浏览。
2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
3、数据集基本信息来自数据原地址或数据提供方提供的信息，如数据集描述中有描述差异，请以数据原地址或服务商原地址为准。

二、所有权说明：

1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。

三、数据转载说明：

1、如您需要转载本站数据，请保留原数据地址及相关版权声明。

四、侵权与处理说明：

1、如本站中的部分数据涉及侵权展示，请及时联系本站，我们会安排进行数据下线。

所需积分：

0 去赚积分？

1146浏览
10下载
0点赞
收藏
分享

今日排行

本月搜索

Dataset Category