2023-09-01 10:13 阿里巴巴_算法工程师

关注

开启智能时代：深度解析智能文档分析技术的前沿与应用

本章主要介绍文档分析技术的理论知识，包括背景介绍、算法分类和对应思路。通过本文学习，你可以掌握：1. 版面分析的分类和典型思想 2. 表格识别的分类和典型思想 3. 信息提取的分类和典型思想。

作为信息承载工具，文档的不同布局代表了各种不同的信息，如清单和身份证。文档分析是一个从文档中阅读、解释和提取信息的自动化过程。文档分析常包含以下几个研究方向：

版面分析模块: 将每个文档页面划分为不同的内容区域。该模块不仅可用于划定相关区域和不相关区域，还可用于对其识别的内容类型进行分类。
光学字符识别 (OCR) 模块: 定位并识别文档中存在的所有文本。
表格识别模块: 将文档里的表格信息进行识别和转换到excel文件中。
信息提取模块: 借助OCR结果和图像信息来理解和识别文档中表达的特定信息或信息之间的关系。

由于OCR模块在前面的章节中进行了详细的介绍，接下来将针对上面版面分析、表格识别和信息提取三个模块做单独的介绍。对于每一个模块，会介绍该模块的经典或常用方法以及数据集。

1. 版面分析

1.1 背景介绍

版面分析主要用于文档检索，关键信息提取，内容分类等，其任务主要是对文档图像进行内容分类，内容的类别一般可分为纯文本、标题、表格、图片和列表等。但是文档布局、格式的多样性和复杂性，文档图像质量差，大规模的带标注的数据集的缺少等问题使得版面分析仍然是一个很有挑战性的任务。版面分析任务的可视化如下图所示:

图 1：版面分析效果图

现有的解决办法一般是基于目标检测或语义分割的方法，这类方法基将文档中不同的板式当做不同的目标进行检测或分割。

一些代表性论文被划分为上述两个类别中，具体如下表所示：

类别主要论文

基于目标检测的方法	Visual Detection with Context，Object Detection，VSR
基于语义分割的方法	Semantic Segmentation

1.2 基于目标检测的方法

Soto Carlos[1]在目标检测算法Faster R-CNN的基础上，结合上下文信息并利用文档内容的固有位置信息来提高区域检测性能。Li Kai [2]等人也提出了一种基于目标检测的文档分析方法，通过引入了特征金字塔对齐模块，区域对齐模块，渲染层对齐模块来解决跨域的问题，这三个模块相互补充，并从一般的图像角度和特定的文档图像角度调整域，从而解决了大型标记训练数据集与目标域不同的问题。下图是一个基于目标检测Faster R-CNN算法进行版面分析的流程图。

图 2：基于Faster R-CNN的版面分析流程图

1.3 基于语义分割的方法

Sarkar Mausoom[3]等人提出了一种基于先验的分割机制，在非常高的分辨率的图像上训练文档分割模型，解决了过度缩小原始图像导致的密集区域不同结构无法区分进而合并的问题。Zhang Peng[4]等人结合文档中的视觉、语义和关系提出了一个统一的框架VSR（Vision, Semantics and Relations）用于文档布局分析，该框架使用一个双流网络来提取特定模态的视觉和语义特征，并通过自适应聚合模块自适应地融合这些特征，解决了现有基于CV的方法不同模态融合效率低下和布局组件之间缺乏关系建模的局限性。

1.4 数据集

虽然现有的方法可以在一定程度上解决版面分析任务，但是该类方法依赖于大量有标记的训练数据。最近也有很多数据集被提出用于文档分析任务。

PubLayNet[5]: 该数据集包含50万张文档图像，其中40万用于训练，5万用于验证，5万用于测试,共标记了表格，文本，图像，标题和列表五种形式
HJDataset[6]: 数据集包含2271张文档图像, 除了内容区域的边界框和掩码之外，它还包括布局元素的层次结构和阅读顺序。

PubLayNet数据集样例如下图所示:

图 3：PubLayNet样例

参考文献:

[1]：Soto C, Yoo S. Visual detection with context for document layout analysis[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 3464-3470.

[2]：Li K, Wigington C, Tensmeyer C, et al. Cross-domain document object detection: Benchmark suite and method[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12915-12924.

[3]：Sarkar M, Aggarwal M, Jain A, et al. Document Structure Extraction using Prior based High Resolution Hierarchical Semantic Segmentation[C]//European Conference on Computer Vision. Springer, Cham, 2020: 649-666.

[4]：Zhang P, Li C, Qiao L, et al. VSR: A Unified Framework for Document Layout Analysis combining Vision, Semantics and Relations[J]. arXiv preprint arXiv:2105.06220, 2021.

[5]：Zhong X, Tang J, Yepes A J. Publaynet: largest dataset ever for document layout analysis[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2019: 1015-1022.

[6]：Li M, Xu Y, Cui L, et al. DocBank: A benchmark dataset for document layout analysis[J]. arXiv preprint arXiv:2006.01038, 2020.

[7]：Shen Z, Zhang K, Dell M. A large dataset of historical japanese documents with complex layouts[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020: 548-549.

2. 表格识别

2.1 背景介绍

表格是各类文档中常见的页面元素，随着各类文档的爆炸性增长，如何高效地从文档中找到表格并获取内容与结构信息即表格识别，成为了一个亟需解决的问题。表格识别的难点总结如下：

表格种类和样式复杂多样，例如不同的行列合并，不同的内容文本类型等。
文档的样式本身的样式多样。
拍摄时的光照环境等

表格识别的任务就是将文档里的表格信息转换到excel文件中，任务可视化如下：

图 4：表格识别示例图，其中左边为原图，右边为表格识别后的结果图，以Excel形式呈现

现有的表格识别算法根据表格结构重建的原理可以分为下面四大类：

基于启发式规则的方法
基于CNN的方法
基于GCN的方法
基于End to End的方法

一些代表性论文被划分为上述四个类别中，具体如下表所示：

类别思路主要论文

基于启发式规则的方法	人工设计规则，连通域检测分析处理	T-Rect，pdf2table
基于CNN的方法	目标检测，语义分割	CascadeTabNet, Multi-Type-TD-TSR, LGPMA, tabstruct-net, CDeC-Net, TableNet, TableSense, Deepdesrt, Deeptabstr, GTE, Cycle-CenterNet, FCN
基于GCN的方法	基于图神经网络，将表格识别看作图重建问题	GNN, TGRNet, GraphTSR
基于End to End的方法	利用attention机制	Table-Master

2.2 基于启发式规则的传统算法

早期的表格识别研究主要是基于启发式规则的方法。例如由Kieninger[1]等人提出的T-Rect系统使用自底向上的方法对文档图像进行连通域分析，然后按照定义的规则进行合并，得到逻辑文本块。而之后由Yildiz[2]等人提出的pdf2table则是第一个在PDF文档上进行表格识别的方法，它利用了PDF文件的一些特有信息（例如文字、绘制路径等图像文档中难以获取的信息）来协助表格识别。而在最近的工作中，Koci[3]等人将页面中的布局区域表示为图（Graph）的形式，然后使用了Remove and Conquer(RAC)算法从中将表格作为一个子图识别出来。

图 5：启发式算法示意图

2.3 基于深度学习CNN的方法

随着深度学习技术在计算机视觉、自然语言处理、语音处理等领域的飞速发展，研究者将深度学习技术应用到表格识别领域并取得了不错的效果。

Siddiqui Shoaib Ahmed[12]等人在DeepTabStR算法中，将表格结构识别问题表述为对象检测问题，并利用可变形卷积来进更好的进行表格单元格的检测。Raja Sachin[6]等人提出TabStruct-Net将单元格检测和结构识别在视觉上结合起来进行表格结构识别，解决了现有方法由于表格布局发生较大变化而识别错误的问题，但是该方法无法处理行列出现较多空单元格的问题。

图 6：基于深度学习CNN的算法示意图

图 7：基于深度学习CNN的算法错误示例

之前的表格结构识别方法一般是从不同粒度（行/列、文本区域）的元素开始处理问题，容易忽略空单元格合并的问题。Qiao Liang[10]等人提出了一个新框架LGPMA，通过掩码重评分策略充分利用来自局部和全局特征的信息，进而可以获得更可靠的对齐单元格区域，最后引入了包括单元格匹配、空单元格搜索和空单元格合并的表格结构复原pipeline来处理表格结构识别问题。

除了以上单独做表格识别的算法外，也有部分方法将表格检测和表格识别在一个模型里完成，Schreiber Sebastian[11]等人提出了DeepDeSRT，通过Faster RCNN进行表格检测，通过FCN语义分割模型用于表格结构行列检测，但是该方法是用两个独立的模型来解决这两个问题。Prasad Devashish[4]等人提出了一种基于端到端深度学习的方法CascadeTabNet，使用Cascade Mask R-CNN HRNet模型同时进行表格检测和结构识别，解决了以往方法使用独立的两个方法处理表格识别问题的不足。Paliwal Shubham[8]等人提出一种新颖的端到端深度多任务架构TableNet，用于表格检测和结构识别，同时在训练期间向TableNet添加额外的空间语义特征，进一步提高了模型性能。Zheng Xinyi[13]等人提出了表格识别的系统框架GTE，利用单元格检测网络来指导表格检测网络的训练，同时提出了一种层次网络和一种新的基于聚类的单元格结构识别算法，该框架可以接入到任何目标检测模型的后面，方便训练不同的表格识别算法。之前的研究主要集中在从扫描的PDF文档中解析具有简单布局的，对齐良好的表格图像，但是现实场景中的表格一般很复杂，可能存在严重变形，弯曲或者遮挡等问题，因此Long Rujiao[14]等人同时构造了一个现实复杂场景下的表格识别数据集WTW，并提出了一种Cycle-CenterNet方法，它利用循环配对模块优化和提出的新配对损失，将离散单元精确地分组到结构化表中，提高了表格识别的性能。

图 8：端到端算法示意图

基于CNN的方法对跨行列的表格无法很好的处理，因此在后续的方法中，分为了两个研究方法来解决表格中跨行列的问题。

2.4 基于深度学习GCN的方法

近些年来，随着图卷积神经网络（Graph Convolutional Network）的兴起，也有一些研究者尝试将图神经网络应用到表格结构识别问题上。Qasim Shah Rukh[20]等人将表格结构识别问题转换为与图神经网络兼容的图问题，并设计了一种新颖的可微架构，该架构既可以利用卷积神经网络提取特征的优点，也可以利用图神经网络顶点之间有效交互的优点，但是该方法只使用了单元格的位置特征，没有利用语义特征。Chi Zewen[19]等人提出了一种新颖的图神经网络GraphTSR，用于PDF文件中的表格结构识别，它以表格中的单元格为输入，然后通过利用图的边和节点相连的特性来预测单元格之间的关系来识别表格结构，一定程度上解决了跨行或者跨列的单元格识别问题。Xue Wenyuan[21]等人将表格结构识别的问题重新表述为表图重建，并提出了一种用于表格结构识别的端到端方法TGRNet，该方法包含单元格检测分支和单元格逻辑位置分支，这两个分支共同预测不同单元格的空间位置和逻辑位置，解决了之前方法没有关注单元格逻辑位置的问题。

GraphTSR表格识别算法示意图：

图 9：GraphTSR表格识别算法示意图

2.5 基于端到端的方法

和其他使用后处理完成表格结构的重建不同，基于端到端的方法直接使用网络完成表格结构的HTML表示输出

)

图 10：端到端方法的输入输出

图 11：Image Caption示例

端到端的方法大多采用Image Caption(看图说话)的Seq2Seq方法来完成表格结构的预测，如一些基于Attention或Transformer的方法。

图 12：Seq2Seq示意图

Ye Jiaquan[22]在TableMaster中通过改进基于Transformer的Master文字算法来得到表格结构输出模型。此外，还添加了一个分支进行框的坐标回归，作者并没有在最后一层将模型拆分为两个分支，而是在第一个 Transformer 解码层之后就将序列预测和框回归解耦为两个分支。其网络结构和原始Master网络的对比如下图所示：

图 13：左：master网络图，右：TableMaster网络图

2.6 数据集

由于深度学习方法是数据驱动的方法，需要大量的标注数据对模型进行训练，而现有的数据集规模偏小也是一个重要的制约因素，因此也有一些数据集被提出。

PubTabNet[16]: 包含568k表格图像和相应的结构化HTML表示。
PubMed Tables(PubTables-1M)[17]:表格结构识别数据集，包含高度详细的结构注释，460,589张pdf图像用于表格检测任务， 947,642张表格图像用于表格识别任务。
TableBank[18]: 表格检测和识别数据集，使用互联网上Word和Latex文档构建了包含417K高质量标注的表格数据。
SciTSR[19]: 表格结构识别数据集，图像大部分从论文中转换而来，其中包含来自PDF文件的15,000个表格及其相应的结构标签。
TabStructDB[12]: 包括1081个表格区域，这些区域用行和列信息密集标记。
WTW[14]: 大规模数据集场景表格检测识别数据集，该数据集包含各种变形，弯曲和遮挡等情况下的表格数据，共包含14,581 张图像。

数据集示例

图 14：PubTables-1M数据集样例图

图 15：WTW数据集样例图

3. Document VQA

3.1 背景介绍

在VQA(Visual Question Answering)任务中，主要针对图像内容进行提问和回答，但是对于文本图像来说，关注的内容是图像中的文字信息，因此这类方法可以分为自然场景的Text-VQA和扫描文档场景的DocVQA，三者的关系如下图所示。

图 16: VQA层级

VQA，Text-VQA和DocVQA的示例图如下图所示。

任务类型 VQA Text-VQA DocVQA

任务描述	针对图片内容提出问题	针对图片上的文字内容提出问题	针对文档图像的文字内容提出问题
示例图片

DocVQA由于其更加贴近实际应用场景，涌现出了大批学术界和工业界的工作。在常用的场景中，DocVQA里提问的问题都是固定的，比如身份证场景下的问题一般为

公民身份号码是什么？
姓名是什么？
名族是什么?

图 17: 身份证示例

基于这样的先验知识，DocVQA的研究开始偏向Key Information Extraction(KIE)任务，本次我们也主要讨论KIE相关的研究，KIE任务主要从图像中提取所需要的关键信息，如从身份证中提取出姓名和公民身份号码信息。

KIE通常分为两个子任务进行研究

SER: 语义实体识别 (Semantic Entity Recognition)，对每一个检测到的文本进行分类，如将其分为姓名，身份证。如下图中的黑色框和红色框。
RE: 关系抽取 (Relation Extraction)，对每一个检测到的文本进行分类，如将其分为问题和的答案。然后对每一个问题找到对应的答案。如下图中的红色框和黑色框分别代表问题和答案，黄色线代表问题和答案之间的对应关系。

图 18: SER,RE任务示例

一般的KIE方法基于命名实体识别(Named Entity Recognition,NER)[4]来研究，但是这类方法只利用了图像中的文本信息，缺少对视觉和结构信息的使用，因此精度不高。在此基础上，近几年的方法都开始将视觉和结构信息与文本信息融合到一起，按照对多模态信息进行融合时所采用的的原理可以将这些方法分为下面三种：

基于Grid的方法
基于Token的方法
基于GCN的方法
基于End to End 的方法

一些代表性论文被划分为上述三个类别中，具体如下表所示：

类别思路主要论文

基于Grid的方法	在图像上多模态信息的融合（文本，布局，图像）	Chargrid
基于Token的方法	利用Bert这类方法进行多模态信息的融合	LayoutLM, LayoutLMv2, StrucText,
基于GCN的方法	利用图网络结构进行多模态信息的融合	GCN, PICK, SDMG-R，SERA
基于End to End的方法	将OCR和关键信息提取统一到一个网络	Trie

3.2 基于Grid的方法

基于Grid的方法在图像层面进行多模态信息的融合。Chargrid[5]首先对图像进行字符级的文字检测和识别，然后通过将类别的one-hot编码填充到对应的字符区域(下图中右图的非黑色部分)内来完成对网络输入的构建，输入最后通过encoder-decoder结构的CNN网络来进行关键信息的坐标检测和类别分类。

图 19: Chargrid数据示例

图 20: Chargrid网络

相比于传统的仅基于文本的方法，该方法能够同时利用文本信息和结构信息，因此能够取得一定的精度提升，但是该方法对文本和结构信息的融合只是做了简单的嵌入，并没有很好的将二者进行融合

3.3 基于Token的方法

LayoutLM[6]将2D位置信息和文本信息一起编码到BERT模型中，并且借鉴NLP中Bert的预训练思想，在大规模的数据集上进行预训练，在下游任务中，LayoutLM还加入了图像信息来进一步提升模型性能。LayoutLM虽然将文本，位置和图像信息做了融合，但是图像信息是在下游任务的训练中进行融合，这样对三种信息的多模态融合并不充分。LayoutLMv2[7]在LayoutLM的基础上，通过transformers在预训练阶段将图像信息和文本，layout信息进行融合，还在Transformer中加入空间感知自注意力机制辅助模型更好地融合视觉和文本特征。LayoutLMv2虽然在预训练阶段对文本，位置和图像信息做了融合，但是由于预训练任务的限制，模型学到的视觉特征不够精细。StrucTexT[8]在以往多模态方法的基础上，在预训练任务提出Sentence Length Prediction (SLP) 和Paired Boxes Direction (PBD)两个新任务来帮助网络学习精细的视觉特征，其中SLP任务让模型学习文本段的长度，PDB任务让模型学习Box方向之间的匹配关系。通过这两个新的预训练任务，能够加速文本、视觉和布局信息之间的深度跨模态融合。

)

图 21：transformer算法流程图

图 22：LayoutLMv2算法流程图

3.4 基于GCN的方法

现有的基于GCN的方法[10]虽然利用了文字和结构信息，但是没有对图像信息进行很好的利用。PICK[11]在GCN网络中加入了图像信息并且提出graph learning module来自动学习edge的类型。SDMG-R [12]将图像编码为双模态图，图的节点为文字区域的视觉和文本信息，边表示相邻文本直接的空间关系，通过迭代地沿边传播信息和推理图节点类别，SDMG-R解决了现有的方法对没见过的模板无能为力的问题。

PICK流程图如下图所示：

图 23：PICK算法流程图

SERA[10]将依存句法分析里的biaffine parser引入到文档关系抽取中，并且使用GCN来融合文本和视觉信息。

图 24：SERA算法流程图

3.5 基于End to End 的方法

现有的方法将KIE分为两个独立的任务：文本读取和信息提取，然而他们主要关注于改进信息提取任务，而忽略了文本读取和信息提取是相互关联的，因此，Trie[9]提出了一个统一的端到端网络，可以同时学习这两个任务，并且在学习过程中相互加强。

图 25: Trie算法流程图

3.6 数据集

用于KIE的数据集主要有下面两个：

SROIE: SROIE数据集[2]的任务3旨在从扫描收据中提取四个预定义的信息：公司、日期、地址或总数。数据集中有626个样本用于训练，347个样本用于测试。
FUNSD: FUNSD数据集[3]是一个用于从扫描文档中提取表单信息的数据集。它包含199个标注好的真实扫描表单。199个样本中149个用于训练，50个用于测试。FUNSD数据集为每个单词分配一个语义实体标签：问题、答案、标题或其他。
XFUN: XFUN数据集是微软提出的一个多语言数据集，包含7种语言，每种语言包含149张训练集，50张测试集。