Select Language

公开数据集

NIST 结构化表单二进制图像参考数据集

NIST 结构化表单二进制图像参考数据集

Scene:

OCR/Text Detection,Image Search

Data Type:

Classification
所需积分:13 去赚积分?
  • 215浏览
  • 0下载
  • 0点赞
  • 收藏
  • 分享

贡献者查看主页

小小程序员

致力于人工智能业务的研究、数据集处理。

Data Preview ? 895.28M

    Data Structure ?

    *数据结构实际以真实数据为准

    NIST 结构化表格数据库由 5,590 页合成文档的二进制黑白图像组成。

    该数据库中的文件是 1988 年 IRS 1040 Package X 中的 12 种不同的税表。

    其中包括 1040、2106、2441、4562 和 6251 表以及附表 A、B、C、D、E、F 和东南。其中八个表格包含两个页面或表格面;因此,数据库中有 20 种不同的形状面。

    该数据库中的文档图像似乎是由个人准备的真实表格,但这些图像是使用计算机自动导出和合成的。

    1、900个模拟报税

    2、5,590 张完整的结构化人脸图像

    3、5,590 个包含输入字段答案的文本文件

    4、20 个输入字段类型和上下文表

    该数据集适用于文档处理和自动数据采集研究、开发和评估,可用于:

    1、表格识别场隔离;

    2、在表单上找到输入字段字符分割:

    3、将输入字段值分成字符字符识别:

    4、识别特定机器打印的字符

    For more information on Special Database 2 please contact:
    Standard Reference Data Program
    National Institute of Standards and Technology
    100 Bureau Dr., Stop 6410
    Gaithersburg, MD 20899-6410
    (844) 374-0183 (Toll Free) 

    The scientific contact for this database is:
    Michael Garris
    National Institute of Standards and Technology
    100 Bureau Drive, Stop 8940
    Gaithersburg, MD 20899-8940
    mgarris [at] nist.gov


    0相关评论
    ×

    帕依提提提温馨提示

    该数据集正在整理中,为您准备了其他渠道,请您使用

    注:部分数据正在处理中,未能直接提供下载,还请大家理解和支持。