亚马逊将公布超过最大会话和知识数据集,超400万字

  • 时间:
  • 浏览:4
  • 来源:ACE资源网_提供爱Q活动网技术_爱Q资源网资讯
大数据
五分钟算法 本文共688个字,预计阅读都要2分钟。

4月1 日, 亚马逊提前大选:朋友计划向公众公开“Topical Chat”数据集,超420万单词21万得话的语料库将于2019年9月17日发布。

该数据集是为参加Alexa Prize Socialbot Grand Challenge 3竞赛的团队开发的,申请截止日期为2019年5月14日,比赛于2019年9月9日结束了了了了。所有参加Alexa Prize竞赛的团队将后能 访问此数据集的扩展版本(扩展主题聊天数据集),其中包括正在进行的集合和注释的结果。

主题聊天数据集将饱含 超过210,000个得话(超过4,5000,000个单词),可支持高质量,可重复的研究,将成为研究界公开可用的最大社交对话和知识数据集。

每个语料库的对话和对话轮次与提供给众包工作者的知识相关联,而且所述知识是从与一组实体相关的一系列“非形态化”和“松散形态化”的文本资源中分派的。

亚马逊高级首席科学家Dilek Hakkani-Tur在博客文章中明确表示,没人 任何语料是与Alexa客户的互动。

该数据库是实现基于知识的神经反应生成系统的后续研究,正确处理这种公开数据集无法正确处理的自然对话中的难题。这将使研究者后能 专注于研究对话中主题和知识选则方面的转换,以及怎么后能 在对话中融入事实和观点。

相关报道:

https://developer.amazon.com/blogs/alexa/post/500dc5515-3b9f-4ec2-8f2a-ac98254625c6/topical-chat-dataset-helps-researchers-address-hard-challenges-in-natural-conversation

本文由

五分钟算法

发布在

ITPUB

,转载此文请保持文章完整性性,并请附上文章来源(ITPUB)及本页链接。

原文链接:http://www.itpub.net/2019/04/09/1320/

Kubernetes1.14 版发布,增强了云原生平台的Windows节点支持

下一篇