Artefacto OCR, puede convertir PDF y fórmulas matemáticas

Cuando solemos leer artículos o documentos, el PDF es el trabajo principal, sin embargo, la información almacenada en PDF es difícil de convertir a otras fórmulas, especialmente fórmulas matemáticas, y se perderá una gran cantidad de información durante el proceso de conversión.

Recientemente, Meta lanzó Nougat, un artefacto OCR que puede resolver muy bien este problema. Está construido en base al modelo de transformador y puede convertir fácilmente documentos PDF en MultiMarkDown, incluso fórmulas matemáticas.

仓库地址facebookresearch/nougat: Implementación de la comprensión óptica neuronal de Nougat para documentos académicos (github.com)

Construimos un entorno virtual de Python y luego activamos el entorno virtual.

Luego ejecute pip install "nougat-ocr[api]".

Una vez completada la instalación, utilizamos un documento pdf para realizar pruebas.

dfdfe529261dce6bb49e2ad2023ecfa5.png

Este documento pdf contiene muchas fórmulas matemáticas y también está en formato de imagen. Luego ejecutamos

turrón ruta de turrón/a/archivo.pdf, y luego se generará una carpeta en el directorio correspondiente, que contiene un archivo en formato MultiMarkDown, que se puede abrir a través del complemento VScode Mathpix. El resultado es el siguiente:

94178d34b6cfd991173c07a2abe99119.png

En comparación con el documento PDF original, básicamente no hay errores y la conversión de fórmulas es perfecta. Amigos que quieran probarlo, vengan a probarlo ahora.

Supongo que te gusta

Origin blog.csdn.net/wutao22/article/details/132614011
Recomendado
Clasificación