公开数据集
数据结构 ? 23.1G
README.md
TableBank 是一个新的基于图像的表格检测和识别数据集,利用互联网上 Word 和 Latex 文档的新颖弱监督构建,包含 417K 高质量标记表格。
Statistics on Train/Val/Test sets
Table Detection
Source | Train | Val | Test |
---|---|---|---|
Latex | 187199 | 7265 | 5719 |
Word | 73383 | 2735 | 2281 |
Total | 260582 | 10000 | 8000 |
Table Structure Recognition
Source | Train | Val | Test |
---|---|---|---|
Latex | 79486 | 6075 | 3036 |
Word | 50977 | 3925 | 1964 |
Total | 130463 | 10000 | 5000 |
Introduction
为了解决对标准开放领域表基准数据集的需求,我们提出了一种新颖的弱监督方法来自动创建TableBank,它比现有的用于表分析的人类标记数据集要大几个数量级。区别于传统的弱监督训练集,我们的方法不仅可以获得大规模的,而且是高质量的训练数据。
现在,网络上有大量的电子文件,如Microsoft Word(.docx)和Latex(.tex)文件。这些在线文档的源代码中自然包含了表格的标记标签。直观地说,我们可以通过使用每个文档内的标记语言添加边界框来操作这些源代码。对于Word文档,可以修改Office内部的XML代码,其中每个表格的边界线都被确定。对于Latex文档,也可以修改tex代码,在其中识别表格的边界框。通过这种方式,可以为各种领域创建高质量的标签数据,如商业文件、官方填充物、研究论文等,这对大规模的表格分析任务非常有利。
TableBank 数据集总共包含 417,234 个高质量标记表及其在各个领域的原始文档。
Statistics of TableBank
based on the number of tables
Task | Word | Latex | Word+Latex |
---|---|---|---|
Table detection | 163,417 | 253,817 | 417,234 |
Table structure recognition | 56,866 | 88,597 | 145,463 |
based on the number of images
Task | Word | Latex | Word+Latex |
---|---|---|---|
Table detection | 78,399 | 200,183 | 278,582 |
Table structure recognition | 56,866 | 88,597 | 145,463 |
Statistics on Train/Val/Test sets of Table Detection
Source | Train | Val | Test |
---|---|---|---|
Latex | 187199 | 7265 | 5719 |
Word | 73383 | 2735 | 2281 |
Total | 260582 | 10000 | 8000 |
Statistics on Train/Val/Test sets of Table Structure Recognition
Source | Train | Val | Test |
---|---|---|---|
Latex | 79486 | 6075 | 3036 |
Word | 50977 | 3925 | 1964 |
Total | 130463 | 10000 | 5000 |
Task Definition
Table Detection
表格检测的目的是利用文档中的边界框来定位表格。给定一个图像格式的文档页面,生成几个代表该页面中表格位置的边界框。
Table Structure Recognition
表格结构识别的目的是识别表格的行和列布局结构,特别是在非数字文档格式(如扫描图像)中。给定一个图像格式的表格,生成一个HTML标签序列,代表行和列的排列以及表格单元的类型。
baselines
为了验证 Table-Bank 的有效性,我们使用具有端到端深度神经网络的最先进模型构建了几个强大的基线。表格检测模型基于具有不同设置的 Faster R-CNN [Ren et al., 2015] 架构。表结构识别模型基于图像到文本的编码器-解码器框架。
Data and Metrics
为了评估表格检测,我们从 Word 和 Latex 文档中抽取 18,000 张文档图像,其中 10,000 张图像用于验证,8,000 张图像用于测试。每个采样图像至少包含一个表格。同时,我们还在 ICDAR 2013 数据集上评估了我们的模型,以验证 TableBank 的有效性。为了评估表格结构识别,我们从 Word 和 Latex 文档中抽取 15,000 张表格图像,其中 10,000 张图像用于验证,5,000 张图像用于测试。对于表格检测,我们按照论文中描述的方式计算精度、召回率和 F1,其中所有文档的指标是通过将重叠区域、预测和基本事实相加来计算的。对于表结构识别,我们使用 4-gram BLEU 分数作为具有单一参考的评估指标。
Table Detection
我们使用开源框架 Detectron2 [Wu et al., 2019] 在 TableBank 上训练模型。 Detectron2 是用于对象检测研究的高质量和高性能代码库,它支持许多最先进的算法。在这项任务中,我们使用带有 ResNeXt [Xie et al., 2016] 的 Faster R-CNN 算法作为骨干网络架构,其中参数在 ImageNet 数据集上进行了预训练。所有基线均使用 4 个 V100 NVIDIA GPU 使用数据并行同步 SGD 进行训练,小批量大小为 20 个图像。对于其他参数,我们使用 Detectron2 中的默认值。在测试期间,生成边界框的置信度阈值设置为 90%。
Models | Word | Latex | Word+Latex | ||||||
---|---|---|---|---|---|---|---|---|---|
Precision | Recall | F1 | Precision | Recall | F1 | Precision | Recall | F1 | |
X101(Word) | 0.9352 | 0.9398 | 0.9375 | 0.9905 | 0.5851 | 0.7356 | 0.9579 | 0.7474 | 0.8397 |
X152(Word) | 0.9418 | 0.9415 | 0.9416 | 0.9912 | 0.6882 | 0.8124 | 0.9641 | 0.8041 | 0.8769 |
X101(Latex) | 0.8453 | 0.9335 | 0.8872 | 0.9819 | 0.9799 | 0.9809 | 0.9159 | 0.9587 | 0.9368 |
X152(Latex) | 0.8476 | 0.9264 | 0.8853 | 0.9816 | 0.9814 | 0.9815 | 0.9173 | 0.9562 | 0.9364 |
X101(Word+Latex) | 0.9178 | 0.9363 | 0.9270 | 0.9827 | 0.9784 | 0.9806 | 0.9526 | 0.9592 | 0.9559 |
X152(Word+Latex) | 0.9229 | 0.9266 | 0.9247 | 0.9837 | 0.9752 | 0.9795 | 0.9557 | 0.9530 | 0.9543 |
Table Structure Recognition
对于表结构识别,我们使用开源框架 OpenNMT [Klein et al., 2017] 来训练图像到文本模型。 OpenNMT 主要是为神经机器翻译而设计的,它支持许多编码器-解码器框架。在这项任务中,我们使用 OpenNMT 中的图像到文本方法来训练我们的模型。该模型还使用 4 个 V100 NVIDIA GPU 进行训练,学习率为 1,batch size 为 24。对于其他参数,我们使用 OpenNMT 中的默认值。
Models | Word | Latex | Word+Latex |
---|---|---|---|
Image-to-Text (Word) | 59.18 | 69.76 | 65.75 |
Image-to-Text (Latex) | 51.45 | 71.63 | 63.08 |
Image-to-Text (Word+Latex) | 69.93 | 77.94 | 74.54 |
Model Zoo
The trained models are available for download in the TableBank Model Zoo.
Get Data and Leaderboard
**Please DO NOT re-distribute our data.**
If you use the corpus in published work, please cite it referring to the "Paper and Citation" Section.
The annotations and original document pictures of the TableBank dataset can be download from the TableBank dataset homepage.
Paper and Citation
https://arxiv.org/abs/1903.01949
@misc{li2019tablebank, title={TableBank: A Benchmark Dataset for Table Detection and Recognition}, author={Minghao Li and Lei Cui and Shaohan Huang and Furu Wei and Ming Zhou and Zhoujun Li}, year={2019}, eprint={1903.01949}, archivePrefix={arXiv}, primaryClass={cs.CV} }
References
[Ren et al., 2015] Shaoqing Ren, Kaiming He, Ross B. Girshick, and Jian Sun. Faster R-CNN: towards real-time object detection with region proposal networks. CoRR, abs/1506.01497, 2015.
[Gilani et al., 2017] A. Gilani, S. R. Qasim, I. Malik, and F. Shafait. Table detection using deep learning. In Proc. of ICDAR 2017, volume 01, pages 771–776, Nov 2017.
[Wu et al., 2019] Y Wu, A Kirillov, F Massa, WY Lo, R Girshick. Detectron2[J]. 2019.
[Xie et al., 2016] Saining Xie, Ross B. Girshick, Piotr Doll´ar, Zhuowen Tu, and Kaiming He. Aggregated residual transformations for deep neural networks. CoRR, abs/1611.05431, 2016.
[Klein et al., 2017] Guillaume Klein, Yoon Kim, Yuntian Deng, Jean Senellart, and Alexander M. Rush. Open-NMT: Open-source toolkit for neural machine translation. In Proc. of ACL, 2017.]
- 分享你的想法
全部内容
数据使用声明:
- 1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
- 2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
- 3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
- 1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
- 1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
- 1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。