Select Language

AI社区

公开数据集

视频动作理解数据集(Moments in Time)

视频动作理解数据集(Moments in Time)

471 浏览
0 喜欢
1 次下载
0 条讨论
Action/Event Detection Classification

数据结构 ? 0M

    Data Structure ?

    * 以上分析是由系统提取分析形成的结果,具体实际数据为准。

    README.md

    MIT-IBM Watson AI Lab 就推出了一个全新的百万规模视频理解数据集Moments-in-Time虽然没有之前的YouTube-8M数据集大,但应该是目前多样性,差异性最高的数据集了。该数据集的任务仍然为视频分类任务,不过其更专注于对“动作”的分类,此处的动作为广义的动作或动态,其执行者不一定是人,也可以是物体或者动物,这点应该是该数据集与现有数据集最大的区分。

    数据概况

    • 共有100,0000个视频,每个视频的长度相同,均为3s

    • 每个视频有一个动作标签(后续版本可能拓展为多标签),此处的动作仅为动词,比如“opening”就为一个标签(与之不同,其他数据集经常会采用动名词组的形式如”opening the door”)

    • 动作主体可以是人,动物,物体乃至自然现象。

    • 数据集的类内差异和类间差异均很大。

    • 存在部分或完全依赖于声音信息的动作,如clapping(拍手) 由上述描述可以看出,由于超大的数据量以及多样性,这个数据集是相当难的,下图则为该数据集的一个例子。可以看出,一个动作类别可以由多种动作主体完成,从而从视觉上看的差异性相当的大,动作的概念可以说是相当抽象了。

    img

    示例视频

    moments.csail.mit.edu/img/CAM_video_no_probs.mp4

    相关论文

    [1] Monfort M, Zhou B, Bargal S A, et al. Moments in Time Dataset: one million videos for event understanding[J].

    [2] Salamon J, Jacoby C, Bello J P. A dataset and taxonomy for urban sound research[C]//Proceedings of the 22nd ACM international conference on Multimedia. ACM, 2014: 1041-1044.

    [3] Sigurdsson G A, Russakovsky O, Gupta A. What Actions are Needed for Understanding Human Actions in Videos?[J]. arXiv preprint arXiv:1708.02696, 2017.

    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。
    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:0 去赚积分?
    • 471浏览
    • 1下载
    • 0点赞
    • 收藏
    • 分享