Select Language

AI社区

人工智能数据集交易平台

1T中文学科类无监督文本数据【数据堂】

1T中文学科类无监督文本数据【数据堂】

141 浏览
0 喜欢
0 条评论
1T 文本 可用于自然语言理解等任务

数据集描述1T中文学科类无监督文本数据 该数据可用于大型语言模型(LLM)训练、chatgpt等任务数据集简介学科类内容数据总计约1T......

README.md

数据集描述

1T中文学科类无监督文本数据 该数据可用于大型语言模型(LLM)训练、chatgpt等任务

数据集简介

学科类内容数据总计约1T左右;每个学科类内容包含标题、内容、作者、时间、一级领域(学科)、二级子领域(知识点);该数据可用于大型语言模型(LLM)训练、chatgpt等任务

数据集支持的任务

可用于大型语言模型(LLM)训练、chatgpt等任务

数据集的格式和结构

数据内容

学科类数据,约79个学科

数据规模

1TB左右

采集方式

采用关键词在海量数据库中搜索的方式进行采集,关键词为一级领域和二级子领域

存储格式

json

数据集版权信息

版权归数所堂所有,商用数据。


0相关评论
数据堂(北京)科技股份有限公司 数据堂(北京)科技股份有限公司