Habilidades de ajuste de clasificación de texto en la práctica 2.0

La defensa de la competencia de Xunfei ha terminado. El autor y mis amigos participaron en algunas competencias de Xunfei. La competencia de clasificación de textos de Xunfei de este año es más diversificada que la del año pasado, involucra una variedad de campos, tareas y datos. Después de escuchar las defensas de la chicos grandes, combinando la experiencia previa y las siguientes preguntas de la competencia para resumir las ideas de combate reales de la competencia de clasificación de texto.

1 Resumen de las preguntas del concurso de clasificación de texto de Xunfei

1.1 Desafío de triaje simple 2.0 Resumen del esquema Top3 para reclamaciones de enfermedades no estandarizadas

Tarea de evento

El triaje simple requiere ciertos datos y conocimientos empíricos que lo respalden. Esta competencia proporcionó parte de los datos de consulta reales de Haodofu Online, que fueron estrictamente insensibilizados y proporcionados a los concursantes para tareas de una sola categoría. Específicamente: al procesar apelaciones de texto, se proporciona una de las 20 instrucciones de tratamiento comunes y una de las 61 instrucciones de enfermedad.

Características

  • Hay dos etiquetas de clasificación, la dirección de la consulta y la dirección de la enfermedad, y los indicadores de evaluación son macro-f1 y micro-f1 respectivamente.
  • Faltan muchas etiquetas en la dirección de la enfermedad y el valor en el conjunto de datos es -1
  • Las dos etiquetas de dirección de texto y dirección de enfermedad tienen una cierta relación de restricción. Por ejemplo, la dirección de consulta es "enfermedad digestiva del segundo niño" y la dirección de enfermedad es "indigestión en niños".
  • características de los datos

En la etiqueta de dirección de tratamiento médico, el número de consultas de medicina interna, atención médica pediátrica y enfermedades de la garganta es relativamente grande, mientras que el número de consultas por ortopedia y enfermedades de la tiroides es relativamente pequeño.

Entre las etiquetas de dirección de enfermedades, medicina interna y otras son las más importantes, y la cantidad de enfermedades histeroscópicas es relativamente pequeña.

Preprocesamiento de datos

(1) Para el campo de texto, el valor faltante se llena directamente con la cadena vacía ""
(2) Para el archivo spo.txt, el texto agregado se construye de acuerdo con la primera columna del nombre de la enfermedad, que se usa para el texto mejora semántica, como

(3) Si el texto contiene el nombre de una enfermedad, empalme el texto agregado correspondiente a la enfermedad y luego empalme el texto de acuerdo con la exposición de la información del texto. Por ejemplo, el nombre de la enfermedad especifica en gran medida la categoría de la enfermedad del paciente. Nota: el Los campos title y HopeHelp existen. En caso de repetición, solo se puede reservar el título en este momento.

Ideas de modelado

Resumen

  • El uso de textos de conocimiento para preguntar sobre enfermedades, cada uno de los cuales contiene sujetos/(atributos)/objetos, tiene un efecto en el aprendizaje de etiquetas
  • El entrenamiento conjunto de la dirección de consulta y la etiqueta de dirección de la enfermedad es mejor que el modelo entrenado por separado para cada etiqueta
  • El aprendizaje de pseudoetiquetas puede mejorar aún más el efecto en la dirección de la enfermedad

Gracias a los compañeros de equipo: mi corazón está helado, Jiangdong, pxx_player

1.2 Resumen de los 2 mejores esquemas del desafío de reconocimiento de oraciones semánticas chinas

Tarea de evento

El reconocimiento de errores semánticos chinos es un problema de clasificación binaria, que predice si una oración es un error semántico. Los errores semánticos son diferentes de los errores ortográficos y gramaticales. Los errores semánticos prestan más atención a la legalidad del nivel semántico de la oración. En la siguiente tabla se muestran ejemplos de errores semánticos.

Características

  • Parte de los datos utilizados en esta competencia provienen del banco de preguntas de las escuelas primarias y secundarias en Internet, y parte proviene de la anotación manual.Cuando los datos se obtienen al comienzo de la competencia, es realmente difícil para las personas hacer un reconocimiento de oraciones incorrecto.
  • La distribución de etiquetas es especial y la cantidad de datos es relativamente grande. Los datos de 1 son aproximadamente tres veces el número de 0.
Preprocesamiento de datos
  • Durante la competencia, los jugadores pueden encontrar que estos datos son más fáciles de ajustar. Al analizar algunos de los datos, algunos de ellos son similares y algunos incluso son datos repetidos. Por lo tanto, es necesario filtrar los datos duplicados y reducir la fila. diferencia.
  • Muestreo estratificado múltiple

Ideas de modelado

  • Durante el experimento, probamos algunos modelos chinos de preentrenamiento, como elegir macbert o un modelo con capacidad de corrección de errores. Los buenos resultados son macbert y electra.
shibing624/macbert4csc-base-chinese
hfl/chinese-macbert-base、hfl/chinese-macbert-large
nezha-large-zh
hfl/chinese-electra-large-discriminator
hfl/chinese-roberta-wwm-ext

Resumen

  • La selección básica de la base de entrenamiento previo para el reconocimiento de oraciones incorrectas en chino es más importante. Entre ellos, electra y macbert son buenos. Además, otros grandes usan modelos de aprendizaje rápido y pert.
  • La deduplicación de datos puede reducir la diferencia de línea

Gracias a los compañeros de equipo: Jiangdong, A08B06365ECB216A

1.3 Resumen de los 2 mejores esquemas del Personnel Matching Challenge

tarea de competencia

La coincidencia inteligente de trabajos requiere datos sólidos como respaldo. Esta competencia proporciona una gran cantidad de JD de trabajos y datos encriptados y desensibilizados de los currículos de los solicitantes de empleo como muestras de capacitación. Los concursantes deben crear modelos basados ​​en las muestras proporcionadas para predecir si los currículos y los trabajos coinciden o no. no. .

Preprocesamiento de datos

Esta competencia proporciona a los concursantes una gran cantidad de JD de trabajo y currículums de solicitantes de empleo, entre los que se encuentran:

  • Los datos de Job JD contienen 4 campos de características: job_id, título del trabajo, descripción del trabajo, requisitos del trabajo

  • Los datos del currículum del solicitante de empleo contienen 15 campos de funciones:

id, 学校类别, 第一学历, 第一学历学校, 第一学历专业, 最高学历, 最高学历学校, 最高学历专业, 教育经历, 学术成果, 校园经历, 实习经历, 获奖信息, 其他证书信息, job_id。

  • En el conjunto de entrenamiento, el número de job_ids se distribuye de la siguiente manera: se puede ver que el número de trabajos 4 y 12 es el más grande, y el número de trabajos 38 y 37 es relativamente pequeño.

Ideas de modelado

  • Construcción de vocabulario
    Dado que los datos de esta competencia son datos anónimos, el modelo de preentrenamiento chino de código abierto no es aplicable, por lo que es necesario reconstruir el vocabulario y el corpus, y luego volver a entrenar el modelo de preentrenamiento. un vocabulario, de acuerdo con el conjunto de entrenamiento, el conjunto de prueba
    y los datos de JD, segmente todos los textos de acuerdo con la segmentación del espacio y luego cree un vocabulario. Además, se deben agregar cinco caracteres especiales, [PAD], [UNK], [CLS ], [SEP], [MASK], y finalmente el tamaño del vocabulario es 4571
  • Construcción del corpus de preentrenamiento
    Dado que los datos de la competencia son datos anónimos, el modelo de preentrenamiento chino de código abierto no es aplicable, por lo que es necesario reconstruir el vocabulario y el corpus, y luego volver a entrenar el modelo de preentrenamiento

El segundo paso es construir el corpus de preformación, clasificando directamente la categoría de escuela, primer grado, escuela de primer grado, carrera de primer grado, grado más alto, escuela de grado más alto, carrera de grado más alto, experiencia educativa, logro académico, experiencia en el campus, pasantía experiencia, información de premios, otra información del certificado El texto de estos campos se unen para generar la descripción del currículum de una persona.

  • Tarea de preentrenamiento
    Durante el experimento, elegimos dos estructuras modelo de preentrenamiento: Bert y Nezha, entre las cuales Nezha es significativamente mejor que Bert.

  • Ajuste de clasificación
    Trate la tarea de coincidencia de puesto de trabajo como una tarea de clasificación de texto y realice una clasificación múltiple en los textos de currículum

Resumen

  • El ajuste fino de los datos anónimos de personas y publicaciones puede capturar efectivamente el conocimiento semántico e identificar diferentes tipos de trabajo
  • NEZHA se basa en el modelo BERT y se ha optimizado en muchos lugares, lo que puede alcanzar un nivel avanzado en una serie de tareas de comprensión del lenguaje natural chino.
  • El viejo equipo gordo y Juge adoptaron diferentes ideas, lo que les dio mucha inspiración. Las características estadísticas y las redes NN tradicionales mejoraron aún más la clasificación de texto.

Gracias a los compañeros de equipo: WEI Z/Jiangdong/Ozawa/Bebe sopa con el jefe

Colección de algoritmos de optimización

Las siguientes son algunas rutinas generales, no necesariamente útiles para todas las tareas, y tienen mucho que ver con conjuntos de datos y modelos previamente entrenados, puede elegir según corresponda

  • MGF
  • EMA
  • DGP
  • LibreLB
  • AWP
  • MultiDropout
    -MixOut

Resumen de los métodos de ajuste fino

También hay algunos consejos de ajuste para la clasificación de texto, y puede agregarlos.

  • Tasa de aprendizaje jerárquico
  • validación cruzada múltiple
  • Aprendizaje de pseudoetiquetas
  • Congelar incrustación
  • Fp16 entrenamiento de precisión mixta

Para más contenido de PNL, bienvenido a prestar atención a la cuenta pública ChallengeHub

Supongo que te gusta

Origin blog.csdn.net/yanqianglifei/article/details/127926886
Recomendado
Clasificación