Select Language

AI社区

公开数据集

ArT场景文本数据集 包括10166幅图像

ArT场景文本数据集 包括10166幅图像

5.59G
960 浏览
0 喜欢
2 次下载
0 条讨论
OCR/Text Detection,Action/Event Detection,Image Data Classification

ArT数据集将包括10166幅图像。它被分为一个包含5603张图像的训练集和一个包含4563张图片的测试集。 ArT是Total Text[4]、SCUT-CT......

数据结构 ? 5.59G

    README.md

    ArT数据集将包括10166幅图像。它被分为一个包含5603张图像的训练集和一个包含4563张图片的测试集。                                                                                                                                                                                                           

    ArT是Total Text[4]、SCUT-CTW1500[5]和百度曲线场景文本的组合,收集这些文本的目的是将任意形状的文本问题引入场景文本社区。在现有图像(3055张)的基础上,将超过7111张图像添加到两个数据集的混合中,这使得ArT成为当今规模更大的场景文本数据集之一。ArT数据集中总共有10166张图像。它被分成一个包含5603幅图像的训练集和一个包含4563幅新收集图像的测试集。ArT数据集是在考虑到文本形状多样性的情况下收集的,因此所有现有文本形状(即水平、多方向和弯曲)在数据集中都有大量存在,这使其成为一个独特的数据集,因为大多数现有数据集[1、2、3]仅由水平和多方向文本实例主导。

    ArT数据集中的文本实例用(a)四边形边界框、8、10和12个顶点多边形边界框(更多详细信息请参见任务选项卡)和(b)转录进行注释。这两种注释都满足了这一挑战提出的(a)文本检测、(b)识别和(c)文本定位任务。

    数据结构:

    Training Set

    • For Task 1 and Task 3

      • train_images.tar.gz (1.6G) - 5,603 images

      • train_labels.json (41M) - The ground-truth file for 5,603 images

    • For Task 2

      • train_task2_images.tar.gz (439M) - 50,029 images

      • train_labels_task2.json (35M) - The ground-truth file for 50,029 images

    Test Set

    • The first part of the test set:

      • test_part1_task2_images.tar.gz (439M) - 24836 images

      • test_part1_images.tar.gz (1.4G) - 2271 images

      • For Task 1 and Task 3

      • For Task 2

    • The final part of the test set:

      • test_part2_task2_images.tar.gz (467M) - 27795 images

      • test_part2_images.tar.gz (1.4G) - 2292 images

      • For Task 1 and Task 3

      • For Task 2

    References

    1. Karatzas, Dimosthenis, et al. "ICDAR 2013 robust reading competition."12th IAPR International Conference on document Analysis and Recognition (ICDAR). IEEE, 2013.

    2. Karatzas, Dimosthenis, et al. "ICDAR 2015 competition on robust reading." 13th IAPR International Conference on document Analysis and Recognition (ICDAR). IEEE, 2015.

    3. Gomez, Raul, et al. "ICDAR2017 robust reading challenge on COCO-Text." 14th IAPR International Conference on document Analysis and Recognition (ICDAR). IEEE, 2017.

    4. Ch'ng, Chee Kheng, and Chee Seng Chan. "Total-text: A comprehensive dataset for scene text detection and recognition." 14th IAPR International Conference on document Analysis and Recognition (ICDAR). Vol. 1. IEEE, 2017.

    5. Yuliang, Liu, Lianwen, Jin, et al. "Curved Scene Text Detection via Transverse and Longitudinal Sequence Connection." Pattern Recognition, 2019.

    6. C. Chng, Y. Liu, Y. Sun, et al, “ICDAR 2019 Robust Reading Challenge on Arbitrary-Shaped Text-RRC-ArT”, in Proc. of ICDAR 2019.


    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:30 去赚积分?
    • 960浏览
    • 2下载
    • 0点赞
    • 收藏
    • 分享