语料_公开数据集帕依提提-人工智能高质量数据集服务平台

日语-英语字幕语料库（JESC）[CLEANED]，由280万个句子组成的大型语料库 This dataset is cleaned version of JESC by handling misplelled English words and doing word segmentation using:English=...NLP,Business,Computer Science,Languages Classification

220.08M 476

Wahyu Setianto

OSCAR尼泊尔语语料库,尼泊尔语文本语料库，用于训练NLP的无监督语言模型 The files are from [OSCAR Corpus](https://oscar-corpus.com/). Please visit their site for more information.The dataset i...NLP,Computer Science,Movies and TV Shows,Text Data,Languages Classification

3.1G 641

Prabesh Dhakal

经典英语文学语料库与元数据，经典英语书籍及其作者 This is a dataset about classic readings in English, some cases other language translated to English.Dickens, Plato, Sha...NLP,Arts and Entertainment,Literature Classification

431.55M 590

Raynard Jon

波斯维基百科数据集，波斯语（波斯语）维基百科语料库 Persian(Farsi) Wikipedia Dataset | دیتاست ویکی پدیا فارسی شامل تمامی مقالات فارسی...NLP,Deep Learning,Text Data,Data Analytics Classification

804.48M 533

Milad Farzalizadeh

Cal多音节语料库 Education,Universities and Colleges,NLP,Text Data,Text Mining,spaCy Classification

15.26M 932

Michael Fekadu

KcBERT训练前语料库（韩国新闻评论） Computer Science,Education,News,NLP,Text Data Classification

11899.2M 647

Beomi

Hinglish Hindi平行语料库 Music,NLP,Deep Learning Classification

0.05M 909

Stuti

泰米尔语语料库 Business,NLP,Classification,India,Artificial Intelligence Classification

11750.7M 457

Praveen

PTT八卦语料库 NLP Classification

799.34M 629

Justin Yang

用于语音克隆的英语多说话人语料库 CSTR-VCTK语料库 This CSTR VCTK Corpus includes speech data uttered by 109 native speakers of English with various accents. Each speaker...NLP,Audio Data Classification

15.22G 722

Michael Fekadu

语言生成数据集：2亿个样本，用于语言生成的已处理Amazon Review数据集 Amazon Customer Reviews Dataset is a dataset of user-generated product reviews on the shopping website Amazon. It contai...NLP,Business,Deep Learning,Classification,Artificial Intelligence Classification

20.51G 735

Abhishek Chatterjee

EmojifyData数据集：1800万条英文推文，全部包含表情符号 So, me and my friend was participating IPavlov course on deep learning in NLP. As out final project we want to work on s...NLP,Online Communities,Text Data,Social Networks Classification

2.58G 1028

Daniil Larionov

NLP Word2Vec 现有的word2vec嵌入，包括手套和谷歌新闻，用于被训练来重建单词的语言上下文 Word2vec is a group of related models that are used to produce word embeddings. These models are shallow, two-layer neur...NLP,Computer Science Classification

5.89G 665

pkugoodspeed

Facebook发布的300维预训练FastText英语单词向量 300-dimensional pretrained FastText English word vectors released by Facebook.The first line of the file contains the nu...NLP,Arts and Entertainment,Games Classification

4.52G 654

Vladimir Demidov

症状语料库 Health,Health Conditions,NLP,Medicine Classification

0.06M 347

Takashi

纽约时报评论，对《纽约时报》发表文章的评论，超过200万条评论 New York Times has a wide audience and plays a prominent role in shaping people's opinion and outlook on current aff...NLP,Computer Science,Programming,News Classification

1.55G 716

Aashita Kesarwani

预测Reddit社区参与度数据集，GDELT帖子分类以及Sirocco文本分析（意见和实体提取）该数据集包含3个月（2017年6月至8月）的Reddit新闻帖子，以及GDELT帖子分类以及Sirocco文本分析（意见和实体提取）的结果。它用...NLP,Computer Science,Online Communities Classification

174.09M 818

Sergei Sokolenko

Word2vec在维基百科上训练数据(单字母+双字母)，以捕捉unigram和bigram 这是一个单词嵌入模型，创建于维基百科+各种来源的评论。与从基于短语的方法（不考虑相邻词的短语/双词上下文）创建双词不同，这...NLP,Computer Science,Software,Programming,Neural Networks Classification

8.62G 707

aintnosunshine

维基百科Word2Vec，Apache Spark word2vec由200K维基百科页面培训 I used Apache Spark to extract more than 6 million phrases from 200,000 English Wikipedia pages. Here is the process of...NLP,Business,Earth and Nature,Text Mining Classification

132.74M 645

Maziyar

带注释的GMB语料库,GMB文本语料库的注释子集 Named Entity Recognition for annotated corpus using GMB(Groningen Meaning Bank) corpus for entity classification with en...NLP,Exploratory Data Analysis,Classification,Random Forest Classification

1.52M 616

Shoumik

Dataset Category

公开数据集