公开数据集

微软表格数据集TableBank

23.1G

1002 浏览

0 喜欢

0 次下载

0 条讨论

MNIST Classification

TableBank 是一个新的基于图像的表格检测和识别数据集，利用互联网上 Word 和 Latex 文档的新颖弱监督构建，包含 417K 高质量标......

数据介绍
文件预览
相关论文
Code
分享讨论(0)
使用声明

启动Notebook开发

数据结构 ? 23.1G

README.md

TableBank 是一个新的基于图像的表格检测和识别数据集，利用互联网上 Word 和 Latex 文档的新颖弱监督构建，包含 417K 高质量标记表格。

Statistics on Train/Val/Test sets

Table Detection

Source	Train	Val	Test
Latex	187199	7265	5719
Word	73383	2735	2281
Total	260582	10000	8000

Table Structure Recognition

Source	Train	Val	Test
Latex	79486	6075	3036
Word	50977	3925	1964
Total	130463	10000	5000

Introduction

为了解决对标准开放领域表基准数据集的需求，我们提出了一种新颖的弱监督方法来自动创建TableBank，它比现有的用于表分析的人类标记数据集要大几个数量级。区别于传统的弱监督训练集，我们的方法不仅可以获得大规模的，而且是高质量的训练数据。

现在，网络上有大量的电子文件，如Microsoft Word（.docx）和Latex（.tex）文件。这些在线文档的源代码中自然包含了表格的标记标签。直观地说，我们可以通过使用每个文档内的标记语言添加边界框来操作这些源代码。对于Word文档，可以修改Office内部的XML代码，其中每个表格的边界线都被确定。对于Latex文档，也可以修改tex代码，在其中识别表格的边界框。通过这种方式，可以为各种领域创建高质量的标签数据，如商业文件、官方填充物、研究论文等，这对大规模的表格分析任务非常有利。

TableBank 数据集总共包含 417,234 个高质量标记表及其在各个领域的原始文档。

Statistics of TableBank

based on the number of tables

Task	Word	Latex	Word+Latex
Table detection	163,417	253,817	417,234
Table structure recognition	56,866	88,597	145,463

based on the number of images

Task	Word	Latex	Word+Latex
Table detection	78,399	200,183	278,582
Table structure recognition	56,866	88,597	145,463

Statistics on Train/Val/Test sets of Table Detection

Source	Train	Val	Test
Latex	187199	7265	5719
Word	73383	2735	2281
Total	260582	10000	8000

Statistics on Train/Val/Test sets of Table Structure Recognition

Source	Train	Val	Test
Latex	79486	6075	3036
Word	50977	3925	1964
Total	130463	10000	5000

Task Definition

Table Detection

表格检测的目的是利用文档中的边界框来定位表格。给定一个图像格式的文档页面，生成几个代表该页面中表格位置的边界框。

Table Structure Recognition

表格结构识别的目的是识别表格的行和列布局结构，特别是在非数字文档格式（如扫描图像）中。给定一个图像格式的表格，生成一个HTML标签序列，代表行和列的排列以及表格单元的类型。

baselines

为了验证 Table-Bank 的有效性，我们使用具有端到端深度神经网络的最先进模型构建了几个强大的基线。表格检测模型基于具有不同设置的 Faster R-CNN [Ren et al., 2015] 架构。表结构识别模型基于图像到文本的编码器-解码器框架。

Data and Metrics

为了评估表格检测，我们从 Word 和 Latex 文档中抽取 18,000 张文档图像，其中 10,000 张图像用于验证，8,000 张图像用于测试。每个采样图像至少包含一个表格。同时，我们还在 ICDAR 2013 数据集上评估了我们的模型，以验证 TableBank 的有效性。为了评估表格结构识别，我们从 Word 和 Latex 文档中抽取 15,000 张表格图像，其中 10,000 张图像用于验证，5,000 张图像用于测试。对于表格检测，我们按照论文中描述的方式计算精度、召回率和 F1，其中所有文档的指标是通过将重叠区域、预测和基本事实相加来计算的。对于表结构识别，我们使用 4-gram BLEU 分数作为具有单一参考的评估指标。

Table Detection

我们使用开源框架 Detectron2 [Wu et al., 2019] 在 TableBank 上训练模型。 Detectron2 是用于对象检测研究的高质量和高性能代码库，它支持许多最先进的算法。在这项任务中，我们使用带有 ResNeXt [Xie et al., 2016] 的 Faster R-CNN 算法作为骨干网络架构，其中参数在 ImageNet 数据集上进行了预训练。所有基线均使用 4 个 V100 NVIDIA GPU 使用数据并行同步 SGD 进行训练，小批量大小为 20 个图像。对于其他参数，我们使用 Detectron2 中的默认值。在测试期间，生成边界框的置信度阈值设置为 90%。

Models	Word			Latex			Word+Latex
	Precision	Recall	F1	Precision	Recall	F1	Precision	Recall	F1
X101(Word)	0.9352	0.9398	0.9375	0.9905	0.5851	0.7356	0.9579	0.7474	0.8397
X152(Word)	0.9418	0.9415	0.9416	0.9912	0.6882	0.8124	0.9641	0.8041	0.8769
X101(Latex)	0.8453	0.9335	0.8872	0.9819	0.9799	0.9809	0.9159	0.9587	0.9368
X152(Latex)	0.8476	0.9264	0.8853	0.9816	0.9814	0.9815	0.9173	0.9562	0.9364
X101(Word+Latex)	0.9178	0.9363	0.9270	0.9827	0.9784	0.9806	0.9526	0.9592	0.9559
X152(Word+Latex)	0.9229	0.9266	0.9247	0.9837	0.9752	0.9795	0.9557	0.9530	0.9543

Table Structure Recognition

对于表结构识别，我们使用开源框架 OpenNMT [Klein et al., 2017] 来训练图像到文本模型。 OpenNMT 主要是为神经机器翻译而设计的，它支持许多编码器-解码器框架。在这项任务中，我们使用 OpenNMT 中的图像到文本方法来训练我们的模型。该模型还使用 4 个 V100 NVIDIA GPU 进行训练，学习率为 1，batch size 为 24。对于其他参数，我们使用 OpenNMT 中的默认值。

Models	Word	Latex	Word+Latex
Image-to-Text (Word)	59.18	69.76	65.75
Image-to-Text (Latex)	51.45	71.63	63.08
Image-to-Text (Word+Latex)	69.93	77.94	74.54

Model Zoo

The trained models are available for download in the TableBank Model Zoo.

Get Data and Leaderboard

**Please DO NOT re-distribute our data.**

If you use the corpus in published work, please cite it referring to the "Paper and Citation" Section.

The annotations and original document pictures of the TableBank dataset can be download from the TableBank dataset homepage.

Paper and Citation

https://arxiv.org/abs/1903.01949

@misc{li2019tablebank,
    title={TableBank: A Benchmark Dataset for Table Detection and Recognition},
    author={Minghao Li and Lei Cui and Shaohan Huang and Furu Wei and Ming Zhou and Zhoujun Li},
    year={2019},
    eprint={1903.01949},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

References

[Ren et al., 2015] Shaoqing Ren, Kaiming He, Ross B. Girshick, and Jian Sun. Faster R-CNN: towards real-time object detection with region proposal networks. CoRR, abs/1506.01497, 2015.
[Gilani et al., 2017] A. Gilani, S. R. Qasim, I. Malik, and F. Shafait. Table detection using deep learning. In Proc. of ICDAR 2017, volume 01, pages 771–776, Nov 2017.
[Wu et al., 2019] Y Wu, A Kirillov, F Massa, WY Lo, R Girshick. Detectron2[J]. 2019.
[Xie et al., 2016] Saining Xie, Ross B. Girshick, Piotr Doll´ar, Zhuowen Tu, and Kaiming He. Aggregated residual transformations for deep neural networks. CoRR, abs/1611.05431, 2016.
[Klein et al., 2017] Guillaume Klein, Yoon Kim, Yuntian Deng, Jean Senellart, and Alexander M. Rush. Open-NMT: Open-source toolkit for neural machine translation. In Proc. of ACL, 2017.]

暂无相关内容。

分享你的想法

去分享你的想法~~

全部内容

欢迎交流分享

开始分享您的观点和意见，和大家一起交流分享.

数据使用声明：

一、数据来源与展示说明：

1、该数据来自于互联网数据采集或服务商的提供，本平台为用户提供数据集的展示与浏览。
2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
3、数据集基本信息来自数据原地址或数据提供方提供的信息，如数据集描述中有描述差异，请以数据原地址或服务商原地址为准。

二、所有权说明：

1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。

三、数据转载说明：

1、如您需要转载本站数据，请保留原数据地址及相关版权声明。

四、侵权与处理说明：

1、如本站中的部分数据涉及侵权展示，请及时联系本站，我们会安排进行数据下线。

所需积分：

12 去赚积分？

1002浏览
0下载
0点赞
收藏
分享

Select Language

AI社区

今日排行

本月搜索

Dataset Category

公开数据集

微软表格数据集TableBank

数据结构 ? 23.1G

README.md

Statistics on Train/Val/Test sets

Table Detection

Table Structure Recognition

Introduction

Statistics of TableBank

based on the number of tables

based on the number of images

Statistics on Train/Val/Test sets of Table Detection

Statistics on Train/Val/Test sets of Table Structure Recognition

Task Definition

Table Detection

Table Structure Recognition

baselines

Data and Metrics

Table Detection

Table Structure Recognition

Model Zoo

Get Data and Leaderboard

Paper and Citation

References

同类数据

全部内容

数据使用声明：

一、数据来源与展示说明：

二、所有权说明：

三、数据转载说明：

四、侵权与处理说明：