Select Language

AI社区

公开数据集

微软表格数据集TableBank

微软表格数据集TableBank

23.1G
532 浏览
0 喜欢
0 次下载
0 条讨论
MNIST Classification

TableBank 是一个新的基于图像的表格检测和识别数据集,利用互联网上 Word 和 Latex 文档的新颖弱监督构建,包含 417K 高质量标......

数据结构 ? 23.1G

    README.md

    TableBank 是一个新的基于图像的表格检测和识别数据集,利用互联网上 Word 和 Latex 文档的新颖弱监督构建,包含 417K 高质量标记表格。

    Statistics on Train/Val/Test sets

    Table Detection

    Source Train Val Test
    Latex 187199 7265 5719
    Word 73383 2735 2281
    Total 260582 10000 8000

    Table Structure Recognition

         

    Source Train Val Test
    Latex 79486 6075 3036
    Word 50977 3925 1964
    Total130463100005000

    Introduction

    为了解决对标准开放领域表基准数据集的需求,我们提出了一种新颖的弱监督方法来自动创建TableBank,它比现有的用于表分析的人类标记数据集要大几个数量级。区别于传统的弱监督训练集,我们的方法不仅可以获得大规模的,而且是高质量的训练数据。

    现在,网络上有大量的电子文件,如Microsoft Word(.docx)和Latex(.tex)文件。这些在线文档的源代码中自然包含了表格的标记标签。直观地说,我们可以通过使用每个文档内的标记语言添加边界框来操作这些源代码。对于Word文档,可以修改Office内部的XML代码,其中每个表格的边界线都被确定。对于Latex文档,也可以修改tex代码,在其中识别表格的边界框。通过这种方式,可以为各种领域创建高质量的标签数据,如商业文件、官方填充物、研究论文等,这对大规模的表格分析任务非常有利。

    TableBank 数据集总共包含 417,234 个高质量标记表及其在各个领域的原始文档。

    Statistics of TableBank

    based on the number of tables

    TaskWordLatexWord+Latex
    Table detection163,417253,817417,234
    Table structure recognition56,86688,597145,463

    based on the number of images

    TaskWordLatexWord+Latex
    Table detection78,399200,183278,582
    Table structure recognition56,86688,597145,463

    Statistics on Train/Val/Test sets of Table Detection

    SourceTrainValTest
    Latex18719972655719
    Word7338327352281
    Total260582100008000

    Statistics on Train/Val/Test sets of Table Structure Recognition

    SourceTrainValTest
    Latex7948660753036
    Word5097739251964
    Total130463100005000

    Task Definition

    Table Detection

    表格检测的目的是利用文档中的边界框来定位表格。给定一个图像格式的文档页面,生成几个代表该页面中表格位置的边界框。

    Table Structure Recognition

    表格结构识别的目的是识别表格的行和列布局结构,特别是在非数字文档格式(如扫描图像)中。给定一个图像格式的表格,生成一个HTML标签序列,代表行和列的排列以及表格单元的类型。

    baselines

    为了验证 Table-Bank 的有效性,我们使用具有端到端深度神经网络的最先进模型构建了几个强大的基线。表格检测模型基于具有不同设置的 Faster R-CNN [Ren et al., 2015] 架构。表结构识别模型基于图像到文本的编码器-解码器框架。

    Data and Metrics

    为了评估表格检测,我们从 Word 和 Latex 文档中抽取 18,000 张文档图像,其中 10,000 张图像用于验证,8,000 张图像用于测试。每个采样图像至少包含一个表格。同时,我们还在 ICDAR 2013 数据集上评估了我们的模型,以验证 TableBank 的有效性。为了评估表格结构识别,我们从 Word 和 Latex 文档中抽取 15,000 张表格图像,其中 10,000 张图像用于验证,5,000 张图像用于测试。对于表格检测,我们按照论文中描述的方式计算精度、召回率和 F1,其中所有文档的指标是通过将重叠区域、预测和基本事实相加来计算的。对于表结构识别,我们使用 4-gram BLEU 分数作为具有单一参考的评估指标。

    Table Detection

    我们使用开源框架 Detectron2 [Wu et al., 2019] 在 TableBank 上训练模型。 Detectron2 是用于对象检测研究的高质量和高性能代码库,它支持许多最先进的算法。在这项任务中,我们使用带有 ResNeXt [Xie et al., 2016] 的 Faster R-CNN 算法作为骨干网络架构,其中参数在 ImageNet 数据集上进行了预训练。所有基线均使用 4 个 V100 NVIDIA GPU 使用数据并行同步 SGD 进行训练,小批量大小为 20 个图像。对于其他参数,我们使用 Detectron2 中的默认值。在测试期间,生成边界框的置信度阈值设置为 90%。

    ModelsWord

    Latex

    Word+Latex


    PrecisionRecallF1PrecisionRecallF1PrecisionRecallF1
    X101(Word)0.93520.93980.93750.99050.58510.73560.95790.74740.8397
    X152(Word)0.94180.94150.94160.99120.68820.81240.96410.80410.8769
    X101(Latex)0.84530.93350.88720.98190.97990.98090.91590.95870.9368
    X152(Latex)0.84760.92640.88530.98160.98140.98150.91730.95620.9364
    X101(Word+Latex)0.91780.93630.92700.98270.97840.98060.95260.95920.9559
    X152(Word+Latex)0.92290.92660.92470.98370.97520.97950.95570.95300.9543

    Table Structure Recognition

    对于表结构识别,我们使用开源框架 OpenNMT [Klein et al., 2017] 来训练图像到文本模型。 OpenNMT 主要是为神经机器翻译而设计的,它支持许多编码器-解码器框架。在这项任务中,我们使用 OpenNMT 中的图像到文本方法来训练我们的模型。该模型还使用 4 个 V100 NVIDIA GPU 进行训练,学习率为 1,batch size 为 24。对于其他参数,我们使用 OpenNMT 中的默认值。

    ModelsWordLatexWord+Latex
    Image-to-Text (Word)59.1869.7665.75
    Image-to-Text (Latex)51.4571.6363.08
    Image-to-Text (Word+Latex)69.9377.9474.54

    Model Zoo

    The trained models are available for download in the TableBank Model Zoo.

    Get Data and Leaderboard

    **Please DO NOT re-distribute our data.**

    If you use the corpus in published work, please cite it referring to the "Paper and Citation" Section.

    The annotations and original document pictures of the TableBank dataset can be download from the TableBank dataset homepage.

    Paper and Citation

    https://arxiv.org/abs/1903.01949

    @misc{li2019tablebank,
        title={TableBank: A Benchmark Dataset for Table Detection and Recognition},
        author={Minghao Li and Lei Cui and Shaohan Huang and Furu Wei and Ming Zhou and Zhoujun Li},
        year={2019},
        eprint={1903.01949},
        archivePrefix={arXiv},
        primaryClass={cs.CV}
    }

    References

    • [Ren et al., 2015] Shaoqing Ren, Kaiming He, Ross B. Girshick, and Jian Sun. Faster R-CNN: towards real-time object detection with region proposal networks. CoRR, abs/1506.01497, 2015.

    • [Gilani et al., 2017] A. Gilani, S. R. Qasim, I. Malik, and F. Shafait. Table detection using deep learning. In Proc. of ICDAR 2017, volume 01, pages 771–776, Nov 2017.

    • [Wu et al., 2019] Y Wu, A Kirillov, F Massa, WY Lo, R Girshick. Detectron2[J]. 2019.

    • [Xie et al., 2016] Saining Xie, Ross B. Girshick, Piotr Doll´ar, Zhuowen Tu, and Kaiming He. Aggregated residual transformations for deep neural networks. CoRR, abs/1611.05431, 2016.

    • [Klein et al., 2017] Guillaume Klein, Yoon Kim, Yuntian Deng, Jean Senellart, and Alexander M. Rush. Open-NMT: Open-source toolkit for neural machine translation. In Proc. of ACL, 2017.]

    暂无相关内容。
    暂无相关内容。
    • 分享你的想法
    去分享你的想法~~

    全部内容

      欢迎交流分享
      开始分享您的观点和意见,和大家一起交流分享.
    所需积分:12 去赚积分?
    • 532浏览
    • 0下载
    • 0点赞
    • 收藏
    • 分享