Select Language

AI社区

人工智能数据集交易平台

202人多角度唇形多模态视频数据【数据堂】

202人多角度唇形多模态视频数据【数据堂】

9 浏览
0 喜欢
0 条评论
202人 音频 语音识别;声纹识别

数据规模202人,每人采集 13段不同角度的音视频+1个txt文档人员分布人种分布:黄种人(印度尼西亚);性别分布:男89人、女113人......

README.md

  • 数据规模

  • 202人,每人采集 13段不同角度的音视频+1个txt文档

  • 人员分布

  • 人种分布:黄种人(印度尼西亚);性别分布:男89人、女113人;年龄分布:18-30岁165人、31-45岁32人、46-60岁5人

  • 采集环境

  • 室内自然光线场景、室内日光灯场景

  • 数据多样性

  • 涵盖多种场景、不同年龄、不同拍摄角度

  • 采集设备

  • 手机,视频分辨率为1,920*1,080

  • 采集角度

  • 同时采集正脸、3个角度左侧脸、3个角度右侧脸、俯视、仰视、左侧脸俯视、右侧脸俯视、左侧脸仰视和右侧脸仰视共13个角度的音视频数据

  • 录制内容

  • 通用领域,内容不限

  • 语言

  • 中文普通话,每段视频时长在20秒以上

  • 数据格式

  • 视频格式为.mp4、音频大于或等于16KHz,16bit、帧率为25-30fps

  • 准确率

  • 字准确率超过95%










0相关评论
数据堂(北京)科技股份有限公司 数据堂(北京)科技股份有限公司 VIP [VIP第1年]