使用神经网络提取PDF表格工具来了,支持图片,关键是能白嫖谷歌GPU资源

news/2024/7/1 10:40:19
贾浩楠 发自 凹非寺
量子位 报道 | 公众号 QbitAI

“表哥表姐”们还在为大量PDF文件中的表格发愁吗?

百度一下,网上有大量提取PDF表格的工具,但是,它们都只支持文本格式PDF。

但扫描生成的图片表格怎么办?

别着急,一种使用深度神经网络识别提取表格的开源工具可以帮助你。

兼容图片、高准确率、还不占用本地运算资源,如此实用的工具值得你拥有。

测试实例

如果在输入的PDF文件中检测的表格,模型会在边界框(bounding box)标出表格边框:

然后,表格数据会被转化为Panda数据框架,方便后续处理:

怎么样,是不是很实用?那这个工具如何使用呢?

使用姿势详解

神经网络算法,还不占用本地运算资源?

对,你没听错,这个工具的所有代码都可以在谷歌Colab上运行。也就是说你可以利用Colab云端资源完成训练和推理,无需本地安装。

这个工具使用到的深度神经网络是Keras-RetinaNet,首先要在Colab上安装Keras-RetinaNet,通过一下一行代码就可以完成:

git clone https://github.com/fizyr/keras-retinanet

同时需要安装必要的库:

pip install .
python setup.py build_ext — inplace

训练Keras-RetinaNet识别表格

首先要构建或一个训练使用的数据库。

这里要用到Colab工具PDF2Img,将PDF文件转为JPG格式供算法学习。

然后将转好的图片保存在Images文件夹中。接下来需要手动给这些训练数据打标签,这里推荐使用在线标记工具makesense.ai。

将XML注释文件保存在注释文件夹中,并创建用于培训和测试的PDF文件列表,将该列表导入train.txt和test.txt中。

接下来,克隆Github项目https://github.com/ferrygun/PDFTableExtract,并安装beautifulsoup。

运行以下命令以将PASCALVOC格式转换为Keras-RetinaNet所需的格式:

python build_logos.py

运行上述命令后,会得到retinanet_classes.csv,retinanet_test.csv和retinanet_train.csv。

在retinanet_classses.csv中,由于只识别PDF文档中的表,所以只有到一个class,即class 0。

如果你在打标签的过程中加入页眉页脚等标签,相应能得到多个class。

完整的文件和文件夹结构的列表:

然后,将retinanet_classes.csv,retinanet_test.csv,retinanet_train.csv,train.txt和test.txt 导入keras-retinanet的根文件夹中:

接下来,运行Colab TrainOCR,可以根据要训练的JPG文件数量来调整训练的epoch数量。

训练完成后,就会得到权重文件output.h5,下载此文件并将其保存到本地主机。后面将使用该文件来运行测试。

这里需要注意的一点是,在Colab中,已将文件上传到Git并进行了Git克隆。

运行测试

运行测试前,还需要安装处理PDF文件必要的库。

PyPDF2是一个python工具库,能够提取文档信息,裁剪页面等。

使用以下命令安装此库:

pip install PyPDF2

Camelot是专门用于解析PDF页面表格的python库。

使用以下命令安装此库:

pip install camelot-py[cv]

PDF2IMG是将Python转换为PIL Image对象的python库。

使用以下命令安装此库:

pip install pdf2imag

在运行预测之前,需要使用从训练中获得的权重文件output.h5加载模型,并从retinanet_classes.csv定义标签class 0。

model_path = ‘output.h5’
model = models.load_model(model_path, backbone_name=’resnet50’)
labels = ‘retinanet_classes.csv’
LABELS = open(labels).read().strip().split(‘\n’)
LABELS = {int(L.split(‘,’)[1]): L.split(‘,’)[0] for L in LABELS}
print(LABELS)
{0: ‘tabel’}

接下来运行测试

import numpy as np
import cv2
import matplotlib.pyplot as pltimage_path = imgfname
#image = cv2.imread(image_path)
image = read_image_bgr(image_path)
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)output = image.copy()
output = cv2.cvtColor(output, cv2.COLOR_BGR2RGB)
print(output.shape) # row (height) x column (width) x color (3)image = preprocess_image(image)
(image, scale) = resize_image(image)
image = np.expand_dims(image, axis=0)# detect objects in the input image and correct for the image scale
(boxes, scores, labels) = model.predict_on_batch(image)
boxes /= scaleconfidence =  0.2
from google.colab.patches import cv2_imshow
import matplotlib.pyplot as plt
label_out = []
result = ""# loop over the detections
for (box, score, label) in zip(boxes[0], scores[0], labels[0]):# filter out weak detectionsif score < confidence:continue# convert the bounding box coordinates from floats to integersbox = box.astype("int")# build the label and draw the label + bounding box on the output# imagelabeli = labellabel = "{}: {:.2f}".format(LABELS[label], score)print(label)if LABELS[labeli] not in label_out:label_out.append(LABELS[labeli])cv2.rectangle(output, (box[0], box[1]), (box[2], box[3]), (255, 0, 0), 12)print(box[0])print(box[1])print(box[2])print(box[3])#result      cv2.putText(output, label, (box[0], box[1] - 10), cv2.FONT_HERSHEY_SIMPLEX, 4.5, (255, 1, 1), 12)plt.figure(figsize=(20, 20))
plt.imshow(output)
plt.show()

如果检测的表格,模型会在边界框(bounding box)标出表格边框:

边界框坐标(x1,y1,x2,y2),将table_area输入到Camelot read_pdf函数中,table_area是已标准化的边界框。

interesting_areas=[]output = [[x1, y1, x2, y2]]
for x in output:[x1, y1, x2, y2] = bboxes_pdf(img, pdf_page, x)bbox_camelot = [",".join([str(x1), str(y1), str(x2), str(y2)])][0]  # x1,y1,x2,y2 where (x1, y1) -> left-top and (x2, y2) -> right-bottom in PDF coordinate space#print(bbox_camelot)interesting_areas.append(bbox_camelot)print(interesting_areas)
output_camelot = camelot.read_pdf(filepath=pdf_file, pages=str(pg), flavor="stream", table_areas=interesting_areas
)output_camelot[0].df

这样就可以将表格数据转化为Panda数据框架,方便后续处理:

图片怎么办

针对扫描图片格式的PDF表格,可以使用Ocrmypdf包来将图片格式PDF转为文本格式。

Ocrmypdf是一个python软件包,可将基于图像的pdf转换为基于文本的PDF。

安装ocrmypdf,可以通过以下命令行将其用于macOS和Linux:

brew install ocrmypdf

通过以下命令调用:

ocrmypdf input_file.pdf output_file.pdf

之后就可以按照上面的方法进行表格提取了。

怎么样,这款兼容图片,又能白嫖谷歌GPU的PDF表格工具对你有帮助吗?

传送门

项目地址:
https://github.com/ferrygun/PDFTableExtract

在线打标签工具:
https://www.makesense.ai/

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

喜欢就点「在看」吧 !


http://lihuaxi.xjx100.cn/news/277947.html

相关文章

高效率

时间就是海绵里的水。能做更多的事情&#xff0c; 并不一定是比别人有更多的空闲时间&#xff0c;而是比别人使用时间 更有效率。关于使用时间的个人建议&#xff1a; 1、高度的集中力。任何事情&#xff0c;没有专注的能力效率无从谈起&#xff0c;因此 要培养迅速将注意力集中…

OpenCV中直方图反向投影算法详解与实现

点击上方“小白学视觉”&#xff0c;选择加"星标"或“置顶”重磅干货&#xff0c;第一时间送达本文转自&#xff1a;opencv学堂一&#xff1a;直方图交叉OpenCV中直方图反向投影算法实现来自一篇论文《Indexing Via Color Histograms》其作者有两位、是Michael.J.Swa…

AI如何赋能金融行业?百度、图灵深视等同台分享技术实践

近日&#xff0c;由BTCMEX举办的金融技术创新研讨会在北京举办。BTCMEX投资人李笑来&#xff0c;AI技术公司TuringPass、百度、美国Apache基金会项目Pulsar、区块链安全公司SlowMist等相关专家参加了此次会议&#xff0c;共同探讨了金融技术在创新方面的现状。 图灵深视副总裁许…

你太菜了,竟然不知道Code Review...

点击上方“方志朋”&#xff0c;选择“设为星标”回复”666“获取新整理的面试资料作者&#xff1a;宝玉 来源&#xff1a;http://1t.click/aA4h我一直认为Code Review&#xff08;代码审查&#xff09;是软件开发中的最佳实践之一&#xff0c;可以有效提高整体代码质量&…

13种编程语言名称的来历

转, 原文&#xff1a; http://jandan.net/2014/03/23/programming-languages.html ----------------------------------------------------------------------------------------------------------------- 可能程序员们都认为编写代码时给变量取名是件烦人的事&#xff0c;不过…

docker部署springboot_Docker+SpringBoot快速构建和部署应用

前言Docker技术发展为当前流行的微服务提供了更加便利的环境&#xff0c;使用SpringBootDocker部署和发布应用&#xff0c;其实也是一件比较简单的事情。当前&#xff0c;前提是得有Docker的基础。构建一个SpringBoot项目本人最早的一篇文章&#xff0c;就是教大家如何使用Spri…

幼儿园带括号算式口诀_初中数学必会的26个知识点口诀

1.有理数的加法运算同号相加一边倒&#xff1b;异号相加“大”减“小”&#xff0c;符号跟着大的跑&#xff1b;绝对值相等“零”正好&#xff0e;2.合并同类项合并同类项&#xff0c;法则不能忘&#xff0c;只求系数和&#xff0c;字母、指数不变样&#xff0e;3.去、添括号法…

12个现实世界中的机器学习真相

点击上方“小白学视觉”&#xff0c;选择加"星标"或“置顶”重磅干货&#xff0c;第一时间送达作者&#xff1a;Delip编译&#xff1a;ronghuaiyang导读当你在现实世界中工作时&#xff0c;有几个事实是你必须面对的&#xff0c;这也是本文的主要内容。上个月&#x…