Select Language

AI社区

公开数据集

相关搜索
您是不是在找?
今日排行
本周排行
本月排行
4.44M 253
CC-100 卡纳达语语言数据集:来自Web爬网数据的1300万条语言数据集 This monolingual dataset includes roughly 13 million uncleaned Kannada sentences crawled from numerous websites....NLP,Text Data,Languages Classification
3.51G 387
海绵宝宝成绩 Arts and Entertainment,NLP Classification
4.85M 333
词难度预测 Computer Science,Games,NLP,Text Data,Languages Classification
1.85M 380
情绪分析元数据集 Earth and Nature,Software,NLP,Africa Classification
0M 319
快速文本对齐词向量 Education,NLP Classification
18167.9M 895
4316.7M 815
4313.21M 765
NLP Word2Vec 现有的word2vec嵌入,包括手套和谷歌新闻,用于被训练来重建词的语言上下文 Word2vec is a group of related models that are used to produce word embeddings. These models are shallow, two-layer neur...NLP,Computer Science Classification
5.89G 477
Facebook发布的300维预训练FastText英语词向量 300-dimensional pretrained FastText English word vectors released by Facebook.The first line of the file contains the nu...NLP,Arts and Entertainment,Games Classification
4.52G 461
GloVe是一种无监督的学习算法 用于获得词的向量表示 GloVe 是一种无监督学习算法,用于获取单词的向量表示。训练是在来自语料库的聚合全局词-词共现统计数据上执行的,结果表示展示...NLP,Deep Learning,Education Classification
1.5G 920
NLP简的数学问题从聊天机器人应用程序 Earth and Nature,Internet,Education,NLP Classification
0M 383
Word2vec在维基百科上训练数据(字母+双字母),以捕捉unigram和bigram 这是一个单词嵌入模型,创建于维基百科+各种来源的评论。与从基于短语的方法(不考虑相邻词的短语/双词上下文)创建双词不同,这...NLP,Computer Science,Software,Programming,Neural Networks Classification
8.62G 532
基于Reddit评论的词表示法的全局矢量数据集 GloVe Reddit Comments Global Vectors for Word Representation based on Reddit comments...NLP Classification
19.1G 456
6.32G 302
SMILES OCR数据集,包含超过 90 万个 SMILES 格式的一产品反应 SMILES(简化分子输入行输入系统)是一种用于输入和表示分子和反应的行符号(一种使用可打印字符的印刷方法)。该数据集包含超过...NLP,Chemistry Classification
175M 1061
医学成绩,从mtsamples获取的医学转录数据 Medical data is extremely hard to find due to HIPAA privacy regulations. This dataset offers a solution by providing med...NLP,Health,Medicine Classification
16.22M 359
染色体:通过整合遗传图谱和保守共线性来修复和增强组装基因组的一套工具 新参考基因组的测序和计算组装的步伐正在加快。尽管DNA测序技术和组装软件工具不断改进,但基因组的生物学特征,如重复序列以及...Others Classification
192.28M 771