OCR神器,PDF、数学公式都能转

我们平时在阅读论文或者文献的时候,PDF都是主力,然而存储在PDF中的信息很难转换成其他公式,尤其是数学公式,在转换过程中会出现大量的信息丢失。

最近Meta推出了一款OCR神器Nougat,可以很好的解决这个问题,它是基于transformer模型构建而成的,可以轻松的将pdf文档转换成MultiMarkDown,即使是数学公式也不在话下。

仓库地址facebookresearch/nougat: Implementation of Nougat Neural Optical Understanding for Academic Documents (github.com)

我们构建一个python虚拟环境,然后激活该虚拟环境

然后运行 pip install "nougat-ocr[api]"即可。

安装完成后,我们用一个pdf文档来做测试

dfdfe529261dce6bb49e2ad2023ecfa5.png

该pdf文档中包含了很多的数学公式,同时也是图片格式,然后我们运行

nougat nougat path/to/file.pdf ,然后在对应的目录会生成一个文件夹,里面包含了一个MultiMarkDown格式的文件,该文件可以通过VScode插件Mathpix来打开。结果如下:

94178d34b6cfd991173c07a2abe99119.png

对比原pdf文档,基本没有什么错误,而且公式的转换堪称完美。想尝试的小伙伴赶紧来试试吧

猜你喜欢

转载自blog.csdn.net/wutao22/article/details/132614011