Activación de la era RPA, Microsoft dio a conocer un documento común para entender el pre-entrenamiento del modelo LayoutLM

Nota del editor: En los últimos años, la automatización de procesos en caliente robótica (robótica de automatización de procesos, RPA) uso de la tecnología AI liberar a la gente de las complejas tareas de procesamiento de documentos electrónicos, los más críticos es la tecnología automática de análisis de documentos y reconocimiento. La cara de un gran número de documentos electrónicos sin rotular, el modelo de lenguaje a gran escala pre-existente puede formados de manera efectiva la captura de texto contiene información semántica en la fase de pre-entrenamiento, pero ignora la información de estructura visual en el documento. Microsoft Research Institute Asia ha publicado recientemente un documento universal de pre-entrenamiento del modelo LayoutLM información de estructura del documento y la información visual vinculante, entender la forma, el proyecto de ley de entender, las pruebas de clasificación de imágenes de documentos de trabajo han logrado mejores resultados actuales, modelos, código y documentos están disponibles para su descarga.

Con la transformación digital de muchas industrias, análisis estructurado y la extracción del contenido de los documentos de negocio electrónicos convertido en un tema de investigación. documentos comerciales electrónicos suelen incluir dos categorías: una es la pieza de documentos en papel escaneados imagen, y el otro es un documentos digitales generados por ordenador que cubren los documentos de adquisición, informes de la industria, correo electrónico de negocios, contratos de venta, contratos de trabajo, facturas comerciales , CV y ​​así sucesivamente.

En general, el documento contiene empresa de comercio electrónico para el procesamiento de datos internas y externas de las cosas, tener una gran cantidad de información física y digital relacionado con la industria. En el pasado, el procesamiento de información de documentos de negocios electrónicos en general se realiza a mano, sin embargo, no es sólo el tiempo que consume la extracción manual de la información, la reutilización no es muy alta, lo que limita enormemente y obstaculiza la eficiencia de las empresas. Por lo tanto, la precisión automático rápido procesamiento de documentos electrónicos es esencial para las empresas para mejorar la productividad, lo que también contribuyó a la aparición de nuevas industrias, para ayudar a las industrias tradicionales de la transición digital y mejorar la productividad.

En los últimos años, la automatización de procesos de robot (robótica de automatización de procesos, RPA) entró en vigor, es el uso de la tecnología de inteligencia artificial para ayudar a una gran cantidad de mano de obra liberada de las complejas tareas de procesamiento de documentos electrónicos, proporcionando una serie de herramientas de apoyo automatizados para mejorar la productividad del negocio. Entre los más tecnología de la base fundamental es la tecnología automática de análisis de documentos y reconocimiento.

tecnologías de análisis de documentos tradicional y de reconocimiento se basan a menudo en regla personalizada artificial o una pequeña cantidad de datos etiquetados para aprender, aunque estos métodos pueden llevar un cierto nivel de rendimiento, pero debido a la falta de reglas personalizadas y el número de muestras que se puede aprender, su versatilidad a menudo no es la satisfactoria alto costo, del análisis de la migración para las diferentes clases de documentos.

Con el desarrollo de técnicas de pre-formación de aprendizaje profundas, así como un gran número de documentos electrónicos sin acumulación marcada, análisis de documentos y la tecnología de reconocimiento ha entrado en una nueva era. Una gran cantidad de investigación muestra que el modelo de lenguaje de gran escala pre-entrenado puede efectivamente la captura de texto contiene información semántica en la fase de pre-entrenamiento por tareas de auto-supervisión, después de puesta a punto aguas abajo modelo de tarea efectivamente puede mejorar el efecto. Sin embargo, el modelo de enseñanza de idiomas preexistente se centró en una sola modalidad de texto, sin tener en cuenta la información de estructura visual en el propio documento y la alineación natural del texto.

Para resolver este problema, se propone una formación previa de documentos modelo LayoutLM universales, la información de la estructura del documento (Documento de presentación de la información) y la información visual (la información visual) de modelado, permitiendo modelo multi-modal se alinean en la fase de pre-entrenamiento. Estábamos en tres diferentes tipos de tarea de verificación aguas abajo: para entender la forma (Formulario entendimiento), el entendimiento de la factura (recibo entendimiento), y clasificación de imágenes de documentos (Documento Clasificación de imagen).

Los resultados experimentales muestran que hemos introducido en la estructura pre-formación y la información visual, puede migrar aguas abajo de manera efectiva a la tarea. En las tres tareas downstream finales han hecho una mejora significativa precisión, Jutilaiyue:

1) la comprensión de la forma de trabajo, nuestro enfoque en comparación con sólo el uso del modelo de texto pre-formados para mejorar los 8,5 puntos porcentuales;

2) la comprensión de la información que el método de extracción tarea factura, ya que la primera elevación boleto del juego de 1.2 puntos ICDAR 2019 [1];

3) En el documento de trabajo de clasificación de imágenes que nos acercamos a los mejores resultados se publican actualmente para mejorar los 1,3 puntos porcentuales [2].

Actualmente, el modelo de pre-entrenamiento y el código ya están disponibles para su descarga:

documento de información multimodal

Información Estructura del documento

En muchos casos, la relación de posición entre el texto del documento contiene una gran cantidad de información semántica. La siguiente forma de gráfico, por ejemplo, la forma por lo general en forma de par clave-valor (par clave-valor) se muestra (por ejemplo, "FECHA: 11/28/84"). Típicamente, el par de claves está generalmente dispuesta verticalmente alrededor o forma, y ​​un tipo especial de relación. Del mismo modo, en un documento de hoja de cálculo, la tabla sería típicamente dispuestas en un patrón de rejilla, y típicamente la cabecera de la primera columna o una primera fila. Al pre-formación, la posición natural de la alineación con la información de texto puede proporcionar una información más rica semántica se extrae la información de tareas aguas abajo.

Figura 1: Imagen de muestra Documento

La información visual

Para documentos de texto enriquecido, además de la relación de posición entre el propio texto, el formato de texto presenta información visual también puede ayudar a las tareas downstream. Texto nivel (nivel de token) tareas, el tamaño del texto, ya sea inclinado, ya sea en negrilla, formato de texto enriquecido y las fuentes para reflejar la semántica apropiadas. En general, las claves (clave) de las formas principales dan típicamente en negrita. Para los documentos generales, el título del artículo es por lo general magnifica presentación negrita del concepto de condiciones especiales aparecerán en cursiva y así sucesivamente. La misión de nivel de documentos (documentos de nivel), la imagen general del documento puede proporcionar información estructural global. Por ejemplo la estructura del documento en general y documento de estructura de hoja de vida literatura científica es obvias diferencias visuales. Estas modalidades alineados texto enriquecido características visuales pueden ser exhibidos por la extracción de modelo visual, acoplado a una fase de pre-formación, por lo tanto ayudar eficazmente tarea aguas abajo.

programa de pre-formación universal

Para modelar la información anterior, tenemos que encontrar una representación efectiva de la información. En realidad, sin embargo, los formatos de documentos ricos y diversos, además de la clara formato de los documentos electrónicos, así como la exploración de un gran número de informes y notas y otros documentos pictóricos. Para los documentos electrónicos generados por ordenador, podemos utilizar las herramientas correspondientes para obtener fácilmente la ubicación y el formato de la información y el texto correspondiente. En cuanto a los documentos de imágenes escaneadas, se utiliza la tecnología OCR para el proceso, a fin de obtener la información correspondiente. Por diferentes medios dos tipos, podemos utilizar casi todos los datos de los documentos existentes pre-entrenamiento para asegurar que el tamaño de los datos pre-entrenamiento.

la estructura del modelo LayoutLM

Para utilizar esta información, añadimos dos nuevos capa de encaje 2-D Posición incrustación e imagen Inserción de la convencional pre-formados en base al modelo, para que uno pueda estructura del documento se unen de manera efectiva y la información visual.

La figura 2: la estructura del modelo LayoutLM 2-D Posición incrustación de la figura.

De acuerdo con el texto OCR obtenido cuadro delimitador, podemos obtener la ubicación específica del texto en el documento. Después de las coordenadas virtuales en coordenadas correspondientes, calculamos las coordenadas que representan la x correspondiente, y, w, cuatro Embedding H subcapa, la final 2-D Posición incrustación de incrustación en las cuatro sub-capas y.

incrustación de imagen

Imagen Inserción de la parte que corresponde a cada texto lo haremos cuadro delimitador como el bloque candidato más rápido R-CNN (Propuesta), extrayendo de este modo las características locales correspondientes. En particular, porque [los CLS] símbolos utilizados para representar la semántica de todo el texto de entrada, también utilizamos la totalidad de la imagen del documento como Image posición Embedding, manteniendo de esta manera el modo de alineación.

Antes de la Capacitación misión

En la fase de pre-formación, proponemos dos misiones pre-entrenamiento de auto-supervisado para LayoutLM características: 1) enmascarado lenguaje visual-Modelo (MVLM, máscara de estilo modelo de lenguaje visual) 2) Multi-etiqueta de clasificación de documentos (MDC, con varias etiquetas de clasificación de documentos ).

modelo de lenguaje visual MVLM estilo de máscara: Tarea 1

Un gran número de experimentos han demostrado MLM capaz de auto-aprendizaje supervisado de manera efectiva en la fase de pre-entrenamiento. Nos fueron modificadas sobre la base de: después de la palabra actual cubierta (máscara), que corresponde a retener la pista 2-D Posición incrustación, deja modelo de predicción de palabras correspondientes. De esta manera, según el modelo de contexto existente y las correspondientes indicaciones visuales enmascarado de predicción de palabras, de manera que el modelo mejor aprendizaje posición modo texto y de texto semántica de relación de alineación.

Tarea 2: documento de clasificación multi-etiqueta MDC

MLM puede representar efectivamente información a nivel de palabra, sino de una representación de nivel de documento, tenemos que la misión de pre-formación de nivel de documento a la introducción de la información semántica más alto nivel. En el pre-entrenamiento de los datos IIT-CDIP puesta fase utilizamos para proporcionar un multi-pestañas etiquetas de tipo de documento para cada documento, se introduce la etiqueta multi-tareas de clasificación de documentos del MDC. Esta tarea se puede usar ese modelo para la polimerización señal de supervisión de la categoría de documento correspondiente, la información de tipo de documento y de captura, a fin de obtener una representación semántica nivel más eficaz.

Pre-proceso de formación

proceso de pre-entrenamiento que utiliza el conjunto de datos IIT-CDIP [3]. IIT-CDIP un gran conjunto de datos se da a conocer en el conjunto de datos de imagen escaneada, el número de documentos después del tratamiento hasta aproximadamente 000.000. Se muestrearon aleatoriamente 1.000.000 experimentos probados, el importe total de los datos de uso final completamente pre-entrenamiento.

La puesta a punto aguas abajo de tareas

Y aguas abajo a través de un pre-tareas de formación para poner a punto el orden de diez millones de documentos, tenemos tres tipos diferentes de tareas probaron aguas abajo han hecho que el actual mejor resultado es un incremento de 70,72 en los conjuntos de datos de valor FUNSD F1 formará comprensible a 79,2; ICDAR 2019 cuentas comprenderán juego SROIE de los primeros resultados de un aumento de 94.02 a 95.24; en el documento de clasificación de conjuntos de datos de imagen actualmente en el RVL-CDIP mejor resultado aumentó a 93.07 94.42.

Formas de comprensión (Formulario entendimiento)

En la comprensión de la forma de trabajo, utilizamos FUNSD como el conjunto de datos de prueba, el conjunto de datos del documento anotado 199 contiene 31.485 palabras y 9.707 entidades semánticas. En el conjunto de datos, tenemos que configurar los datos clave de la forma de (clave-valor) extraído. Mediante la introducción de formación previa información de ubicación, nuestro modelo ha realizado mejoras significativas en la tarea. Los resultados en la tabla de abajo.

Tabla 1: Los resultados experimentales en FUNSD LayoutLM conjuntos de datos

Notas entienden (Comprensión de recibo)

En la tarea de entender el proyecto de ley, seleccionamos juego Evaluación SROIE como una prueba. SROIE entender las facturas incluidas facturas de 1000 ha sido marcadas, cada billete marcado el nombre de la tienda, tienda de ubicación, precio, consumo de tiempo de cuatro entidades semánticas. Partir de la configuración del conjunto de datos, nuestro modelo en el SROIE evaluación, el valor de F1 más alto que los puntos porcentuales en primer lugar (2019) 1,2 a 95,24 por ciento.

Captura de imagen

Figura 3: Clasificación de Evaluación SROIE [4] (en marzo de 2020) la clasificación de imágenes de documentos (Documento Clasificación de imagen)

Para la tarea de clasificación de imágenes de documentos, elegimos conjunto de datos RVL-CDIP para probar. RVL-CDIP conjunto de datos contiene 16 totales registro de clase 400.000 documentos de cada categoría contiene 25.000 datos del documento. Nuestro modelo después del recorte en el conjunto de datos de tasa de precisión de la clasificación aumentó 1,35 puntos porcentuales a 94,42 por ciento.

Tabla 3: Resultados de LayoutLM RVL-CDIP en el análisis de conjuntos de datos experimentales

También se analizaron de acuerdo con el entorno experimental. Basado en los datos de entrenamiento, la estructura de tamaño de paso, la estructura y el modelo de inicialización, LayoutLM hay más potencial para ser realizada.

datos de entrenamiento y el paso

De acuerdo con la tabla, podemos ver un aumento en la formación de datos y medidas de formación pueden mejorar significativamente los resultados del modelo.

Tabla 4: Comparación de diferentes cantidades de datos de entrenamiento y el paso en el caso en el conjunto de datos LayoutLM resultados FUNSD

estructura del modelo y de inicialización de pesos

Hemos llevado a cabo un experimento controlado usando BASE / arquitectura de red grande y el uso de BERT / RoBERT inicialización peso. Según los resultados, se encontró que bajo la misma configuración experimental otros casos, el uso de pesos de arquitectura de red más grandes y más eficientes puede afectar significativamente a los resultados del modelo.

Tabla 5: diferentes pesos y diferente tamaño de la red donde inicialización LayoutLM (Texto + Layout, MVLM) da como resultado los datos de comparación set resumen FUNSD

A través de experimentos, se observó que la tarea de comprender el contenido del documento, la estructura del documento y mediante la introducción de la información visual en el modelo de fase de pre-entrenamiento puede mejorar efectivamente la realización de tareas downstream. El trabajo futuro, se intentará imagen incrustación de fusión temprana (Early Fusión) en la fase de pre-formación, la información de la imagen codificada en LayoutLM. Al mismo tiempo, vamos a tratar de otra misión de pre-formación eficaz, mientras que la introducción de los datos de entrenamiento de mayor tamaño, el potencial de expansión LayoutLM.

Papeles y códigos

Hemos publicado los papeles y pre-entrenando modelo y proporciona ejemplos de código de ajuste fino, más información, por favor visite el siguiente enlace.

Papeles enlace:

https://arxiv.org/abs/1912.13318

enlaces de código:

https://github.com/microsoft/unilm/tree/master/layoutlm

referencias:

[1]  https://rrc.cvc.uab.es/?ch=13&com=evaluation&task=3

[2]  https://paperswithcode.com/sota/document-image-classification-on-rvl-cdip

[3]  https://ir.nist.gov/cdip/

[4]  https://rrc.cvc.uab.es/?ch=13&com=evaluation&task=3

Línea experiencia educativa durante muchos años trabajó en una P7 educación se dedica principalmente a la minería de datos y AI profundo estudio de la idea más qq: 2586251002 

Publicados 232 artículos originales · ganado elogios 93 · Vistas a 50000 +

Supongo que te gusta

Origin blog.csdn.net/qq_42370150/article/details/104773660
Recomendado
Clasificación