品牌:数据堂
发货:3天内
发送询价
数据集描述
1T中文学科类无监督文本数据 该数据可用于大型语言模型(LLM)训练、chatgpt等任务
数据集简介
学科类内容数据总计约1T左右;每个学科类内容包含标题、内容、作者、时间、一级领域(学科)、二级子领域(知识点);该数据可用于大型语言模型(LLM)训练、chatgpt等任务
数据集支持的任务
可用于大型语言模型(LLM)训练、chatgpt等任务
数据集的格式和结构
数据内容
学科类数据,约79个学科
数据规模
1TB左右
采集方式
采用关键词在海量数据库中搜索的方式进行采集,关键词为一级领域和二级子领域
存储格式
json
数据集版权信息
版权归数所堂所有,商用数据。