文档解析实战结果

开源工具

PaddleOCR

OCR标注工具
paddleOCR提供了易用的标注工具，在识别不好的数据上进行标注和训练。

MinerU

Steps:

文档预处理
PyMuPDF过滤掉不能处理（比如加密文档）的文档，提取PDF metadata：文档分类、语言类型、页码等
语言识别
主要支持中、英文识别，作为OCR识别的参数。
乱码识别
提前识别乱码，保证OCR识别文字的效果。
扫描PDF识别
基于文本的PDF，直接使用PyMuPDF。
扫描件PDF，需要开启OCR。
页面metadata抽取
比如：总页数，页面的宽度、高度。
文档内容解析
PDF-Extract-Kit model library检测不同的region并识别相应region的内容。

MinerU使用了5个模型，分别用于：layer检测、公式检测、表格检测、公式识别、OCR。
Layerout检测

PDF-Extract-Kit layerout检测算法：实时目标检测算法YOLOv10、Layoutlmv3
数据集
2.1 多样化数据选择：学术paper、电子书、textbooks、试卷、杂志、PPT、研究报告等
2.2 对文档组成部分中涉及的版面标注类型进行分类，包括：标题、正文段落、图片、图片标题、表格、表格标题、图片表格注释、行内公式、公式标签，以及需舍弃的类型。
2.3 模型训练：
微调检测模型
2.4 迭代数据选择和模型训练
模型结构
评估指标

公式检测
公式如果不能提前被检测，后续的文本识别很容易将公式部分识别为乱码。

模型：公式检测单独训练了一个基于YOLO的检测模型。
数据：行内公式、

公式识别
UniMERNet

数据集
训练集：: UniMER-1M：1061791 latex-image对，
测试集：UniMER-Test
模型结构
模型结构基于Swin-Transformer编码器和mBART解码器。
输入：公式图片，公式图片经过数据增强模块，转换成多个图像。编码器将图像编码成特征向量。解码器通过交叉注意力机制将图像特征向量和输出的文本序列进行交互生成公式。解码器的输入为：图像特征向量、token向量、位置编码。
UniMERNet-Encoder，UniMERNet-Decoder在结构上做了优化提高推理速度，精度稍有损失。
任务类型
语言模型任务。
损失函数
交叉熵损失。
评估指标
bleu
编辑距离
表达式识别率(Expression Recognition Rate)

表格识别

从表格中提取结构化数据。
表格转Latex
表格转html
TableMaster：使用PubTabNet数据集。
TableMaster将表格识别分解为四个子任务：表结构识别、text line检测、text line识别、box assignment。
StructEqTable：使用DocGenome benchmark数据集。
StructEqTable：采用端到端的方式进行表格识别。

OCR识别
使用集成到PDF-Extract-Kit中的Paddle-OCR进行文本识别。
直接对整页进行OCR识别有时会导致跨列的行被识别为一行，导致错误的语序。
对layerout检测识别出的文本块进行OCR文本识别。
对有行内公式公式的文本，先通过公式检测模型检测出公式的坐标，将公式mask掉，再执行OCR识别文字，再将公式插回识别结果。

文档内容后处理
解决内容顺序的问题。模型识别出文本、图像、公式块等可能会有overlap，OCR识别的文字也可能会有overlap。
后处理主要处理边界框的关系：
3.1 处理边框包含关系：移除图像和表格区域中的公式和文字，以及公式块中的边框。
3.2 部分覆盖关系：使用分割算法（segmentation algorithm）
格式转换
识别结果为：meta Json，可按需转为markdown或Json格式。