语_公开数据集帕依提提-人工智能高质量数据集服务平台

ALFFA 非洲语音数据收集撒哈拉以南非洲语言资源进行自动语音识别：Wolof案例研究。Elodie Gauthier，Laurent Besacier，Sylvie Voisin，Michael Mel...NLP Audio

3.81G 1152

ALFFA

THCHS-30 汉语语音识别数据 THCHS-30标识符：SLR18摘要：CSLT @清华大学发布免费汉语语音语料库类别：演讲许可证：Apache License v.2.0THCHS30是由清华大学...NLP Audio

13.4G 2597

Tsinghua University

Sinhala TTS 语音识别数据僧伽罗语TTS标识符：SLR30摘要：僧伽罗语多音箱TTS语料库类别：演讲许可：署名 - ShareAlike 4.0国际（CC BY-SA 4.0）关于此资源...CNN Audio

247.96M 1760

Google

呼吸声音数据集，用于检测呼吸系统疾病呼吸声音数据库，使用录音来检测呼吸系统疾病。呼吸音是呼吸健康和呼吸系统疾病的重要指标。人呼吸时发出的声音与空气流动，肺组...Medical Audio

3.69G 2281

voltamax

心跳声音数据集该数据集最初是针对机器学习挑战来对心跳声音进行分类的。数据是从两个来源收集的：（A）通过iStethoscope Pro iPhone应用程序从...Medical Audio

110M 1204

Ed King

数千种有关常见医学症状语音数据集，超过8.5小时录音该数据包含数千种有关常见医学症状（如“膝盖疼痛”或“头痛”）的语音，总计超过 8 个小时。每种语音都是由个体人类贡献者基于...Audio Data Audio

2.63G 1636

appen

PubMed医学数据集：包含提取的 3984 个医学句子该数据集包含从 PubMed 摘要中提取的 3984 个医学句子，并标注了不同医学术语之间的关系。该数据集主要关注“治疗”和“病因”关...NLP Classification

9.4M 1676

appen

斯瓦希里语翻译语音转录和主题（包含 10 个半小时语音数据集）该项任务的输入数据是来自红十字会的灾难与威胁相关信息，其中包括疾病、人身伤害和自然灾害等主题。每个类别都提供了相关信息，...Video Data Audio

42.8G 1206

appen

TED-LIUM 英语语音识别训练语料库 TIMIT阅读语音语料库旨在为语音研究以及自动语音识别系统的开发和评估提供语音数据。 TIMIT包含宽带录音，其中包括630位来自美国...Video Games Audio

19.82G 1066

University of Pennsylvania

Mapillary 用于街道场景语义理解的交通标志数据集 Mapillary交通标志数据集是世界上最大，用途最广泛的可公开获得的交通标志数据集，可用于教学机器检测和识别交通标志。该数据集...Vehicle 2D Box

0M 2089

Mapillary

免费ST中文普通话语料库使用手机在室内静音环境下记录了该语料库。它具有855个扬声器。每个扬声器有120声。所有话语都经过仔细记录，并由人工检查。转录...Music Analysis Audio

8.2G 886

openslr

LibriTTS语料库 LibriTTS是一个多语种英语语料库，由Heiga Zen在Google Speech和Google Brain团队的协助下编写，以24kHz采样率大约585小时阅读英...Video Data Audio

1.2G 2918

openslr

免费ST美国英语语料库使用手机在室内静音环境下记录了该语料库。它有10个扬声器。每个说话者大约有350种话语。所有话语都经过仔细记录，并由人工检查...Video Games Audio

351M 956

openslr

THUCTC 中文文本分类数据集 THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包，能够自动高效地实现用户自...OCR/Text Detection Classification

1.1G 3743

清华大学自然语言处理与社会人文计算实验室

THCHS30 中文语音数据集 THCHS30是一个开放的中文语音数据库，由清华大学语音与语言技术中心（CSLT）发布。原始记录是2002年由王冬在清华大学计算机科学...Music Analysis Audio

6.4G 1726

清华大学语音与语言技术中心

Twitter 社交数据集 This dataset consists of 'circles' (or 'lists') from Twitter. Twitter data was crawled from public sourc...NLP Classification

31.4M 2380

Stanford University

Google+ 社交圈子数据集 This dataset consists of 'circles' from Google+. Google+ data was collected from users who had manually shared t...NLP Classification

773M 1539

Stanford University

Facebook圈子数据集 This dataset consists of 'circles' (or 'friends lists') from Facebook. Facebook data was collected from...NLP Classification

1M 2068

Stanford University

Europarl用于统计机器翻译的并行语料库(21种欧洲语言的版本) For a detailed description of this corpus, please read:Europarl: A Parallel Corpus for Statistical Machine Translation,...NLP Classification

1.46G 1338

University of Edinburgh

Jamalon 阿拉伯语书籍数据集 Jamalon是中东最大的在线书店，提供超过950万种阿拉伯语和英语书籍，以及上门送货服务。该数据集包含不同类别的不同领域中的大量...OCR/Text Detection Classification

1.2M 1315

robot

Dataset Category

公开数据集