Nougat: un modelo Transformer para OCR de documentos científicos

A medida que el campo de la inteligencia artificial continúa avanzando, sus subcampos, incluido el procesamiento del lenguaje natural, la generación del lenguaje natural, la visión por computadora, etc., están ganando rápidamente una enorme popularidad debido a su amplia gama de casos de uso. El reconocimiento óptico de caracteres (OCR) es un campo maduro y ampliamente investigado en la visión por computadora. Tiene muchos usos, como digitalización de documentos, reconocimiento de escritura a mano y reconocimiento de texto de escenas. El reconocimiento de expresiones matemáticas es un área donde el OCR ha recibido amplia atención en la investigación académica.

El PDF es uno de los formatos más utilizados y suele guardarse en libros o publicarse en revistas académicas. El PDF es el segundo formato de datos más utilizado en Internet, representa el 2,4% de la información y se utiliza a menudo para la entrega de documentos. A pesar de su uso generalizado, extraer información de archivos PDF puede resultar complicado, especialmente cuando se trata de material altamente especializado, como artículos de investigación científica. Debido a que contiene muchas fórmulas matemáticas, el OCR actual puede provocar que se pierda la información semántica de las expresiones matemáticas.

Un equipo de investigadores de Meta AI ha lanzado una solución llamada Nougat, que significa " Comprensión óptica neuronal para documentos académicos " . Para el reconocimiento óptico de caracteres (OCR) de textos científicos, Nougat es un modelo VIT. Su objetivo es convertir estos archivos a lenguaje de marcado para que sean más accesibles y legibles por máquina.

Para mostrar la eficacia del método, el equipo también produjo un nuevo conjunto de datos de artículos académicos. Este enfoque proporciona una respuesta viable para mejorar la accesibilidad del conocimiento científico en la era digital. Llena la brecha entre el material escrito que es fácil de leer para las personas y el texto que las computadoras pueden procesar y analizar. Nougat es básicamente un modelo basado en Transformer para convertir imágenes de páginas de documentos (especialmente imágenes de archivos PDF) en texto de marcado formateado.

El equipo resume sus principales contribuciones de la siguiente manera:

Publicar un modelo previamente entrenado: cree un modelo previamente entrenado que pueda convertir archivos PDF en un lenguaje de marcado simple. Este modelo previamente entrenado está disponible públicamente en GitHub, donde cualquiera puede acceder a él y al código asociado.

Canal de creación de conjuntos de datos: describe un método para crear conjuntos de datos que combinan documentos PDF con su código fuente asociado. Este enfoque para el desarrollo de conjuntos de datos es fundamental para probar y mejorar los modelos Nougat y también puede ser útil para futuras investigaciones y aplicaciones de análisis de documentos.

Se basa únicamente en la imagen de la página: Esto significa que este modelo solo requiere una captura de pantalla del PDF, lo que lo convierte en una herramienta flexible que puede extraer contenido de una variedad de fuentes, incluso si el documento original no tiene un formato de texto digital. También puede utilizar escaneos de papel y libros.

Se puede decir que Nougat ha creado una nueva era de OCR al utilizar las funciones del modelo VIT. Su capacidad para comprender documentos científicos complejos y convertirlos en lenguajes de marcado estructurados allana el camino para una accesibilidad perfecta a la información, cerrando la brecha entre la comprensión humana y el análisis automático. Esta innovación es muy prometedora para la investigación académica y más allá, y demuestra el poder transformador de las soluciones impulsadas por la IA en la era digital.

Las capturas de pantalla anteriores son del sitio web oficial: la imagen de la izquierda es un archivo de imagen y la imagen de la derecha es la fórmula generada por la sintaxis de Latex.

El documento y la página web oficial están aquí:

https://avoid.overfit.cn/post/061348444174421ebbe69423117c6e98

Pequeña queja: la gestión de proyectos de FB es tan caótica como siempre

  • **Nougat** solo tiene una página de github
  • segment-anything tiene un nombre de dominio separado y el blog actualizado está en ai.meta
  • llama solo tiene un directorio secundario de ai.meta, pero se considera importante colocarlo en la parte superior de la página de inicio de ai.meta.
  • dinov2 fue a otro nombre de dominio de metademolab

Se puede ver que las noticias sobre luchas internas y competencia por el poder informático en los últimos días son seguras.

Supongo que te gusta

Origin blog.csdn.net/m0_46510245/article/details/132753195
Recomendado
Clasificación