AI技术百科
121浏览
0点赞
358浏览
0点赞
710浏览
2点赞
大模型训练语料篇—已有大规模数据集: C4 / Pile / ROOTS / Wudao
前言大模型的训练,大规模的语料是很重要的,这篇博文跟大家讨论下目前比较出名的大规模语料,讨论它们的来源/多样性/清洗方式等作为参考C42021 EMNLP,T5的训练语料,2021年 4 月数据清洗 URL: https://github.com/google-research/text-to-text-transfer-transformer/
11-23 10:37
480浏览
0点赞
点云数据集与核心算法
0 点云点云(point cloud)是空间中点的数据集,可以表示三维形状或对象,通常由三维扫描仪获取。点云中每个点的位置都由一组笛卡尔坐标 (X, Y, Z) 描述,有些可能含有色彩信息(R,G,B)或物体反射面强度(Intensity)信息。强度信息的获取是激光扫描仪接受设备采集到的
07-03 22:05
277浏览
0点赞
188浏览
1点赞
274浏览
1点赞
BDD100K数据集
BDD100K数据集是2018年5月由伯克利大学AI实验室(BAIR)所发布,同时设计了一个图片标注系统。BDD100K数据集包含10万段高清视频,每个视频约40秒/720p/30 fps 。每个视频的第10秒对关键帧进行采样,得到10万张图片,图片分辨率为1280*720,并对其进行标注。数据库集包含
05-07 22:46