Algoritmo natural: finalización básica de la entrevista con IA

  1. Desgarro manual de la red neuronal BP
  2. Bert y Transformer escritos a mano (BERT es muy detallado, como las etiquetas de texto CLS, par)
  3. Aprende pytorch, tensorflow

Trabajos de algoritmo de IA

Puede ver el sitio web

  1. Sitio web de Niuke
    inserte la descripción de la imagen aquí

respuesta cara a cara

  1. github

    inserte la descripción de la imagen aquí

conexión del proyecto

Ingeniero de algoritmos publica conocimiento esencial.

  1. pregunta y respuesta
  • La diferencia entre ELMO, GPT y BERT
    • Extractor de funciones: elmo usa LSTM para la extracción, GPT y BERT usan Transformer para la extracción. En muchas tareas, la capacidad de extracción de características de Transformerr es más fuerte que LSTM. Elmo usa 1 capa de vector estático + 2 capas de lSTM, y su capacidad de extracción multicapa es limitada, mientras que Transformer en GPT y BERT puede usar multicapa y tiene fuertes capacidades de computación paralela; modelos de lenguaje unidireccional y bidireccional: GPT usa un modelo de lenguaje unidireccional, elmo y bert usan un modelo de lenguaje bidireccional, pero elmo es en realidad un empalme de dos modelos de lenguaje unidireccional (en direcciones opuestas), y la capacidad de fusionar características es débil. Tanto GPT como BERT usan Transformer, Transformer es una estructura de codificador-decodificador, el modelo de lenguaje unidireccional de GPT usa la parte del decodificador y la parte del decodificador ve oraciones incompletas; el modelo de lenguaje bidireccional de Bert usa la parte del codificador.
  • ¿Cuál es el proceso de formación de GloVe?
    • La esencia es el aprendizaje supervisado. Aunque Glove no requiere etiquetado manual y es aprendizaje no supervisado, todavía necesita definir la etiqueta; los vectores w y w_ son parámetros de aprendizaje, que son esencialmente los mismos que el método de entrenamiento de aprendizaje supervisado, utilizando el gradiente de AdaGrad. descenso El algoritmo muestrea aleatoriamente todos los elementos distintos de cero en la matriz X, establece la curvatura de aprendizaje en 0,05, itera 50 veces cuando el tamaño del vector es inferior a 300 e itera 100 veces en vectores de otros tamaños hasta la convergencia. El aprendizaje final es que los dos vectores de palabras son w y
  • función sigmoidea
    • Similar a las funciones seno y coseno, aunque el intervalo de coordenadas es desde infinito negativo hasta infinito positivo, pero el rango de valores es -1,1 (intervalo abierto), función suave continua, que es derivable en todas partes
  • Diferencia entre frecuentista y bayesiano
    • Los frecuentistas creen que los parámetros de investigación son fijos, los datos son infinitos y se pueden obtener resultados limitados de un muestreo infinito, y no hay probabilidad previa; la escuela bayesiana cree que el mundo está cambiando, solo los datos son fijos y la parámetros es variable, y su probabilidad posterior es una modificación de la probabilidad previa. (p(A a B)=P(B)*P(B|A))
  • SGD y principio de Adán
    • SGD se denomina descenso de gradiente estocástico. Calcula el gradiente del conjunto de datos de mini lotes en cada iteración y luego actualiza los parámetros; Adam usa la estimación de momento de primer orden y la estimación de momento de segundo orden del gradiente para actualizar dinámicamente la tasa de aprendizaje del parámetros, y luego corrige el sesgo Finalmente se alcanza un rango aleatorio de la tasa de aprendizaje, por lo que los parámetros tienden a ser estables
  • Qué hacer cuando L1 no es guiable
    • El método de descenso del eje evita parámetros no diferenciables. Porque la función de pérdida se realiza de acuerdo con el método de descenso de gradiente negativo, y el método de descenso del eje de coordenadas se realiza de acuerdo con el eje de coordenadas. Por ejemplo, si hay m valores propios, primero fije m-1 valores propios, de modo que una determinada característica pueda obtener primero una solución óptima local para evitar el problema de que la función de pérdida no es derivable.
  • La diferencia entre la estimación de máxima verosimilitud y la máxima probabilidad a posteriori
    • La estimación de máxima verosimilitud se calcula utilizando datos de observación, y el muestreo en la estimación de máxima verosimilitud satisface el supuesto de que todas las muestras son independientes y están distribuidas de forma idéntica; mientras que la máxima probabilidad posterior consiste en utilizar datos empíricos para obtener estimaciones puntuales de observación, lo que incorpora La ley anterior puede considerarse como una estimación de máxima verosimilitud completamente regularizada
  • ¿Cómo se entrena Transformer? ¿Cómo probar en la fase de pruebas?
    • El proceso de entrenamiento de Transformer es similar a Seq2seq. Primero, el lado del codificador obtiene la representación de codificación de entrada y la ingresa al lado del decodificador para atención interactiva, y luego el lado del decodificador recibe su entrada correspondiente. módulo de atención, combina la salida del lado del codificador. , y luego a través de FFN, después de obtener la salida del extremo del decodificador, y finalmente a través de una capa lineal completamente conectada, la siguiente palabra (token) se puede predecir a través de softmax, y luego la pérdida se puede propagar hacia atrás de acuerdo con la función de pérdida de la clasificación múltiple softmax, por lo que, en general, el proceso de entrenamiento del transformador es equivalente a un problema de clasificación múltiple supervisado. Cabe señalar que el lado del codificador puede calcular en paralelo y codificar todas las secuencias de entrada al mismo tiempo, pero el lado del codificador no predice todas las palabras (tokens) a la vez, sino que las predice una por una como seq2seq. Para la fase de prueba, la única diferencia con la fase de entrenamiento es la entrada de nivel inferior en el lado del decodificador.
  • ¿Puede el modelo BERT usar un método no supervisado para tareas de similitud de texto?
    • El primer punto es que sin finetune, el valor absoluto de la similitud del coseno no tiene importancia práctica, y la similitud del coseno calculada por bert pretrain es muy grande. Si usa directamente un umbral como la similitud del coseno> 0.5 para juzgar la similitud o la diferencia, el efecto definitivamente será pobre. Si se usa para ordenar, es decir, coseno(a,b)>coseno(a,c)->b es más similar que c y a, se puede usar. Utilice auc como criterio de evaluación.
    • Para tareas de similitud semántica de textos breves (titulares de noticias), el efecto de la incorporación avanzada de palabras (inglés fasttext/glove, chino tencent incrustación) significa que la agrupación ya es buena; para textos largos, utilice simhash, un modelo de lenguaje completo de estadísticas puras de frecuencia de palabras. El método simple también está bien
    • El modelo de preentrenamiento de bert no es tan efectivo como la incrustación de palabras cuando se usa directamente como incrustación de oraciones, y el efecto de incrustación de cls es el peor (es decir, salida agrupada). Apenas se puede usar para usar todas las incrustaciones de tokens comunes como agrupación
    • El método siamés se usa para entrenar a bert, y la capa superior usa el coseno para hacer un juicio, de modo que bert pueda aprender la incrustación de oraciones que es adecuada para el coseno como el juicio de similitud final, y el efecto es mejor que la incrustación de palabras. de la falta de interacción de características entre pares de oraciones, en comparación con El ajuste fino del par de oraciones original de bert es aún peor
  • ¿Cuál es la diferencia entre word2vec y NNLM?
    • Su esencia se puede considerar como un modelo de lenguaje; el vector de palabras es solo un producto de NNLM. Aunque word2vec es esencialmente un modelo de lenguaje, se enfoca en el vector de palabras en sí mismo, por lo que se han realizado muchas optimizaciones para mejorar la eficiencia computacional; en comparación con NNLM, palabra El vector se suma directamente, no se empalma, y ​​la capa oculta se descarta. Teniendo en cuenta que la normalización softmax necesita atravesar todo el vocabulario, se utiliza softmax jerárquico y muestreo negativo para la optimización. Softmax jerárquico genera esencialmente un árbol de Huffman con la ruta ponderada más pequeña Haga que la ruta de búsqueda de palabras de alta frecuencia sea más pequeña; el muestreo negativo es más directo y esencialmente realiza un muestreo negativo para cada palabra en cada muestra
  • ¿Cómo se paraleliza el transformador?
    • Creo que la paralelización de Transformer se refleja principalmente en el módulo de autoatención. En el lado del codificador, el transformador puede procesar toda la secuencia en paralelo y obtener la salida de toda la secuencia de entrada a través del lado del codificador. En el lado del codificador. módulo, para una determinada secuencia x1, x2, x3..., el módulo de autoatención puede calcular directamente los resultados del producto punto de xi, xj, mientras que el modelo de la serie RNN debe calcularse de x1 a xn para
  • ¿Cuál es la diferencia entre guante y word2vec y LSA?
    • Glove vs LSA: LSA (Análisis semántico latente) puede construir vectores de palabras basados ​​en la matriz de co-ocurrencia, que es esencialmente una descomposición de matriz basada en la colección de corpus global. Sin embargo, SVD tiene una alta complejidad computacional. Glove puede considerarse como una matriz optimizada y método eficiente para LSA Algoritmo de factorización matricial, optimizado para pérdidas por mínimos cuadrados utilizando Adagrad
    • word2vec vs LAS: La mayor diferencia entre los dos métodos es el modelo en sí. LSA es un modelo generativo basado en un modelo gráfico probabilístico. Su función de probabilidad se puede escribir como una multiplicación de varias probabilidades condicionales, incluidas las variables ocultas que deben especularse. (es decir, tema); la palabra modelo incrustado generalmente se expresa en forma de red neuronal, y la función de probabilidad se define en la salida de la red. Es necesario aprender los pesos de la red para obtener una representación vectorial densa de las palabras.
    • word2vec vs guante: word2vec está entrenado en un corpus local, y su extracción de características se basa en ventanas deslizantes
  • ¿Cómo realizar transferencia de aprendizaje en PTM ?
    • Seleccione la tarea de entrenamiento adecuada: el modelo de lenguaje es la tarea de entrenamiento previo más popular para PTM. Las tareas de entrenamiento previo similares tienen sus propios sesgos y tienen diferentes efectos en diferentes tareas. Por ejemplo, las tareas de NSP pueden beneficiar las tareas posteriores, como la respuesta a preguntas (QA) y la inferencia de lenguaje natural (NLI); la elección de una arquitectura de modelo adecuada, como la estrategia MLM y la estructura de transformador-codificador adoptada por BERT, la hace inadecuada para el procesamiento directo. Tarea de generación; seleccione el conjunto de datos apropiado, los datos de la tarea posterior deben ser similares a los PTM y las tareas de capacitación, y ahora hay muchos PTM listos para usar que se pueden usar convenientemente en varias tareas posteriores específicas del dominio o del idioma. ; seleccione las capas apropiadas para la transferencia: incluye principalmente la migración de incrustación, la migración de la capa superior y la migración de todas las capas. Por ejemplo, word2vec y Glove pueden usar la migración de incrustación, BERT puede usar la migración de la capa superior, Elmo puede usar la migración de todas las capas, BERT puede usar la migración de la capa superior y Elmo puede usar la migración de todas las capas.
      inserte la descripción de la imagen aquíinserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/weixin_44077556/article/details/128115549
Recomendado
Clasificación