Select Language

AI社区

公开数据集

DARPA TIMIT 声学语音连续语音

DARPA TIMIT 声学语音连续语音

1198.1M
148 浏览
0 喜欢
1 次下载
0 条讨论
NLP,Audio Data Classification

#DARPA TIMIT声学语音连续语音语料库-**特别感谢**:**https://github.com/philipperemy/timit/edit/master/README.md**-**下载......

数据结构 ? 1198.1M

    README.md

    #DARPA TIMIT声学语音连续语音语料库-**特别感谢**:**https://github.com/philipperemy/timit/edit/master/README.md**-**下载链接(免费,由Academy Torrents提供)**:**https://goo.gl/l0sPwz**-**类型**:数据集-**摘要**:DARPA TIMIT声学语音连续语音语料库(TIMIT)训练和测试数据TIMIT朗读语音语料库旨在为获取声学语音知识以及开发和评估自动语音识别系统提供语音数据。TIMIT是在国防高级研究计划局-信息科学与技术办公室(DARPA-ISTO)的赞助下,多个站点共同努力的结果。文本语料库设计是麻省理工学院(MIT)、斯坦福研究院(SRI)和德州仪器(TI)的共同努力。演讲在TI录制,在麻省理工学院转录,并由美国国家标准与技术研究所(NIST)保存、验证和准备用于CD-ROM制作。该文件包含TIMIT语音语料库的简要描述。其他信息,包括参考材料和文章的一些相关再版,可在印刷文档中找到,该文档也可从NTIS(NTIS#PB91-100354)获得语料库说话者分布TIMIT共包含6300个句子,由来自美国8个主要方言区的630个说话者中的每一个说出10个句子。表1显示了按性别划分的8个方言区的说话者人数。括号中给出了百分比。说话者的方言区是他们童年生活的美国地理区域。地理区域与美国公认的方言区相对应(俄亥俄州立大学语言学系语言档案,1982年),但西部地区(dr7)除外,在西部地区,方言边界不为人所知,而方言区8的使用者在童年时期经常走动。表1:说话者的方言分布方言区(dr)#男性#女性总数---------------------------------------------131(63%)18(27%)49(8%)2 71(70%)31(30%)102(16%)3 79(67%)23(23%)102(16%)4 69(69%)31(31%)100(16%)5 62(63%)36(37%)98(16%)6 30(65%)16(35%)46(7%)7 74(74%)26(26%)100(16%)8 22(67%)11(33%)33(5%)--------------------------------------------8 438(70%)192(30%)630(100%)方言区为:dr1:新英格兰dr2:北部dr3:北米德兰dr4:南米德兰dr5:南部dr6:纽约市dr7:西部dr8:Army Brat(四处移动)#语料库文本材料TIMIT提示中的文本材料(在文件“prompts.doc”中找到)由SRI设计的2个方言“shibboleth”句子、MIT设计的450个语音紧凑的句子和TI选择的1890个语音多样的句子组成。方言句子(SA句子)旨在揭示说话者的方言变体,并由所有630名说话者阅读。语音紧凑的句子被设计成能很好地覆盖成对的电话,额外出现的语音上下文被认为是困难的或特别感兴趣的。每个演讲者阅读其中5个句子(SX句子),每个文本由7个不同的演讲者朗读。语音多样性的句子(SI句子)是从现有的文本来源中选择的-布朗语料库(Kuchera和Francis,1967)和剧作家对话(Hultzen等人,1964)-以增加句子类型和语音上下文的多样性。选择标准最大化了文本中的各种异音背景。每个说话者读其中3个句子,每个句子只能由一个说话者读。表2总结了TIMIT中的演讲材料。表2:TIMIT演讲材料句子类型#句子#演讲者总数#句子/演讲者---------------------------------------------方言(SA)2 630 1260 2紧凑(SX)450 7 3150 5多样(SI)1890 1 1890 3-------------------------------------------------------------总计2342 6300 10建议培训/测试细分演讲材料已细分为培训和测试部分。文件“testset.doc”中描述了细分的标准。该细分与分布在CD-ROM原型版本上的数据无关。#核心测试集:测试数据有一个核心部分,包含24个说话者,每个方言的2名男性和1名女性


    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:15 去赚积分?
    • 148浏览
    • 1下载
    • 0点赞
    • 收藏
    • 分享