Preguntas comunes de entrevistas: artículos de PNL (actualización continua)

  1. ¿El principio de Word2Vec y las técnicas utilizadas?  https://mp.weixin.qq.com/s/lerKdFXkhqQaaVl4BGgblA
  2. ¿Cómo se realiza el softmax multicapa de Word2Vec, cuál es la idea y la función de pérdida cambia?  Https://zhuanlan.zhihu.com/p/56382372
  3. Función de pérdida de Word2vec  http://zh.d2l.ai/chapter_natural-language-processing/approx-training.html  (Cuando no hay elementos o pasantías en el currículum, a los entrevistadores les gusta preguntar a Word2vec, lo cual es muy aburrido)
  4. ¿Por qué word2vec basado en skip-gram es más efectivo que cbow en el vocabulario de baja frecuencia? ¿Por qué es bueno? http://sofasofa.io/forum_main_post.php?postid=1002735
  5. ¿Cómo convierte Word2Vec el vector de palabra obtenido en un vector de oración y cómo medir la calidad del vector de palabra? Https://blog.csdn.net/Matrix_cc/article/details/105138478
  6. ¿Por qué es útil Word2vec? La esencia de word2vec es mapear palabras similares o palabras con contextos similares a casi el mismo punto, por lo que los pesos de las palabras con semántica similar son cercanos, y hacer tareas posteriores es mejor que vectores de palabras inicializados aleatoriamente.
  7. ¿Cuáles son las desventajas de word2vec? 1. La estructura es demasiado simple para aprender mejor el conocimiento sintáctico y semántico. 2. No hay forma de resolver OOV. 3. Incapaz de resolver el problema del orden de las palabras. 4. Incapaz de resolver el problema de la polisemia.
  8. ¿Por qué softmax jerárquico construye un árbol binario con frecuencia de palabras?  Https://www.zhihu.com/question/398884697
  9. ¿Cómo se realiza el muestreo negativo con muestreo ponderado y por qué el muestreo negativo se pondera a la potencia de 3/4? https://zhuanlan.zhihu.com/p/144563199
  10. ¿Cuál es la diferencia entre la muestra negativa de muestreo negativo y la muestra negativa de softmax jerárquico? El número de muestras negativas para el muestreo negativo es fijo y las muestras negativas para el softmax jerárquico están desequilibradas. Los nodos raíz de las palabras con alta frecuencia de palabras están cerca, y las muestras negativas muestreadas son menos, y las muestras negativas para las palabras de baja frecuencia el muestreo son más.
  11.  La diferencia entre fasttext, word2vec, glove, elmo, bert, GPT, xlnet, ¿cuáles son las ventajas de fasttext en comparación con word2vec y cómo se clasifica?
  12.  El principio de textcnn, ¿por qué elegir usar núcleos de convolución 2,3,4 de diferentes tamaños?
  13. ¿Cómo se clasifica BiLSTM + Atención? Https : //blog.csdn.net/google19890102/article/details/94412928 
  14. La estructura de Transformer, el papel de múltiples cabezas Atención Ps. Pytorch implementa manualmente múltiples cabezas   https://blog.csdn.net/Matrix_cc/article/details/104868571[NLP] Transformador detallado
  15. La diferencia entre la codificación de posición de Transformer y la codificación de posición de bert, ¿por qué agregar la codificación de posición? La codificación de posición de Transformer se define artificialmente, bert la aprende él mismo y aprende la información del orden de las palabras en el entrenamiento, como la incrustación de palabras. Debido a que el modelo LSTM tradicional viene con información de orden de palabras y Transformer no incluye información de orden de palabras, necesita agregar codificación de posición.
  16. ¿Cuál es el problema si la palabra vector en la auto-atención en Transformer no multiplica la matriz de parámetros QKV?

    El núcleo de la atención en uno mismo es utilizar otras palabras en el texto para mejorar la representación semántica de la palabra de destino, a fin de hacer un mejor uso de la información contextual. En atención propia, cada palabra en la secuencia se producirá por puntos con cada palabra en la secuencia para calcular la similitud, incluida la palabra en sí. Si no multiplica la matriz de parámetros QKV, q, kyv correspondientes a esta palabra son exactamente iguales. En el caso de la misma magnitud, el valor del producto escalar de qi y ki será el mayor (se puede hacer una analogía con "cuando la suma de dos números es la misma, el producto correspondiente a los mismos dos números es el mayor "). Luego, en el promedio ponderado después de softmax, la palabra en sí tendrá la mayor proporción, lo que hará que la proporción de otras palabras sea muy pequeña, y es imposible usar de manera efectiva la información de contexto para mejorar la representación semántica de la palabra actual. Multiplicar por la matriz de parámetros QKV hará que q, k y v de cada palabra sean diferentes, lo que puede reducir en gran medida la influencia mencionada anteriormente.

  17. El efecto residual de Transformer: reduce el problema de la desaparición del gradiente y la explosión del gradiente, y al mismo tiempo resuelve el problema de degradación. El problema de degradación se refiere a: cuando la red tiene más capas ocultas, la precisión de la red alcanza la saturación y luego se degrada drásticamente, y esta degradación no es causada por sobreajuste.
  18. ¿Cómo resuelve Transformer el problema del texto extenso?
  19. El principio de LN o BN Ps. LN se utiliza en Transformer, pytorch lo implementa manualmente
  20. ¿Dónde se utiliza principalmente la deserción en el modelo Transformer?
  21. ¿Por qué dividir por el radical d en auto-atención?  Para reducir el valor de Q * K, evite que caiga en el intervalo de saturación de la función softmax. Debido a que el gradiente de la región de saturación de la función softmax es casi 0, el gradiente desaparece fácilmente.
  22. ¿Por qué Transformer funciona mejor que LSTM y CNN? https://blog.csdn.net/None_Pan/article/details/106485896
  23. ¿Por qué BERT tiene un buen rendimiento?  Https://blog.csdn.net/jlqCloud/article/details/104742091  1. Grandes datos de preentrenamiento y dos métodos de preentrenamiento 2. La estructura del modelo utilizada es mejor que LSTM y CNN 3. Profundidad de la capa del modelo 
  24. ¿Por qué desea agregar las tres incrustaciones de BERT? respuesta
  25. Desventajas de BERT : 1. No puede resolver el problema del texto largo. 2. El ruido de entrada [MASK] causa la diferencia entre las dos etapas de preentrenamiento y ajuste fino. 3. Rendimiento deficiente de la tarea de generación: la El proceso de formación y el proceso de generación son inconsistentes, lo que da como resultado resultados deficientes en la tarea de generación 4. La codificación de posición utiliza codificación absoluta  https://www.jiqizhixin.com/articles/2019-08-26-16
  26. ¿El mecanismo de la máscara en Bert ? Es el 15% de los tokens en el corpus de máscara aleatoria, el 80% de las palabras se reemplazan por tokens [MASK], el 10% de las palabras se reemplazan por palabras arbitrarias y el 10% de las palabras permanecen sin cambios.
  27. ¿Cuál es la diferencia entre la máscara en bert y la CBOW en word2vec ?

    Similitudes: La idea central de CBOW es predecir la palabra de entrada en función de su contexto antes y después, dado un contexto. Bert es esencialmente el mismo.

    Diferencias: Primero, en CBOW, cada palabra se llamará palabra de entrada, mientras que solo el 15% de las palabras en Bert se llamará palabra de entrada. En segundo lugar, para la parte de entrada de datos, los datos de entrada en CBOW solo tienen el contexto de la palabra que se va a predecir, mientras que la entrada de Bert es una oración "completa" con el token [MASK], lo que significa que Bert usa la palabra de entrada para ser predicho en el lado de entrada. [MASK] token reemplazado.

    Además, después de entrenar a través del modelo CBOW, la inserción de palabras de cada palabra es única, por lo que no puede manejar el problema de varias palabras. La inserción de palabras (inserción de tokens) obtenida por el modelo de Bert integra información contextual, incluso si es misma palabra, en diferentes contextos, la palabra incrustación obtenida es diferente.

  28. ¿Por qué BERT usa granularidad de palabras en lugar de granularidad de palabras? Porque al realizar tareas de preentrenamiento de MLM, la predicción de la última palabra se predice con softmax. Si usa la palabra granularidad, la cantidad total de palabras es aproximadamente 2w, y si usa la palabra granularidad, hay cientos de miles de palabras y la memoria de video explotará durante el entrenamiento.

  29. Los principios y diferencias entre HMM y CRF, y la diferencia en la complejidad del algoritmo de Viterbi:

    1. HMM es un modelo generativo, CRF es un modelo discriminativo

    2. HMM es un gráfico de probabilidad dirigido y CRF es un gráfico de probabilidad no dirigido

    3. El proceso de solución de HMM puede ser óptimo a nivel local y CRF puede ser óptimo a nivel mundial 

    4. HMM es una hipótesis de Markov, y CRF es Markov, porque Markov es una condición para garantizar o juzgar si una gráfica de probabilidad es una gráfica de probabilidad no dirigida. Principio de HMM : tres preguntas: 1. Problema de cálculo de probabilidad: Dado el modelo λ = ( A, B, π) y la secuencia de observación Q = {q1, q2, ..., qT} en el algoritmo hacia adelante-atrás, calcule la probabilidad P de que la secuencia Q aparezca bajo el modelo λ (Q | λ); 2 Problema de aprendizaje: algoritmo de Baum-Welch (estado desconocido)  secuencia de observación conocida Q = {q1, q2, ..., qT}, modelo de estimación λ = (A, B, π) parámetros, Hacer la secuencia de observación P (Q | λ) máximo bajo este modelo. 3. Problema de predicción: el algoritmo de Viterbi  da el modelo λ = (A, B, π) y la secuencia de observación Q = {q1, q2, ..., qT}, Encuentre la secuencia de estados I con la mayor probabilidad condicional P (I | Q, λ) de la secuencia de observación dada.

  30. ¿Por qué es eficaz el SOP en Albert?

    ALBERT cree que NSP (Next Sentence Prediction) confunde la predicción de temas y la predicción de coherencia. Como referencia, NSP usa dos oraciones: una coincidencia positiva es la segunda oración del mismo documento y una coincidencia negativa es la segunda oración de otro documento. Por el contrario, el autor de ALBERT cree que la coherencia entre oraciones es una tarea / pérdida que realmente necesita atención, no predicción del tema, por lo que SOP hace esto:

    Se utilizan dos frases, ambas del mismo documento. El caso de prueba de muestra positiva es que el orden de estas dos oraciones es correcto. Una muestra negativa es el orden inverso de las dos oraciones.
     

  31. Que es add & norm en bert y su función
  32. La diferencia entre atención local y atención global: https://easyai.tech/ai-definition/attention/
  33. Comprensión de la atención y sus ventajas y desventajas: la atención consiste en seleccionar una pequeña cantidad de información importante de una gran cantidad de información y centrarse en esta información importante, ignorando la mayor parte de la información sin importancia. Cuanto mayor sea la ponderación, más se centra en su valor de valor correspondiente, es decir, la ponderación representa la importancia de la información y el valor es su información correspondiente. ventaja:

    Pocos parámetros

     En comparación con CNN y RNN , la complejidad del modelo es  menor y los parámetros también son menores. Por lo tanto, el requisito de potencia informática es aún menor.

    alta velocidad

    La atención resuelve el problema de que RNN no se puede calcular en paralelo. Cada paso del mecanismo de Atención no depende de los resultados del cálculo del paso anterior, por lo que se puede procesar en paralelo como CNN.

    Buen efecto

    Antes de la introducción del mecanismo de atención, existe el problema de que todos se han sentido angustiados: la información de larga distancia se debilitará, al igual que las personas con una capacidad de memoria débil no pueden recordar el pasado.

    Desventajas: incapaz de capturar información de posición, es decir, incapaz de aprender la relación de orden en la secuencia. Esto se puede mejorar agregando información de posición, como vectores de posición
  34. La diferencia entre los dos mecanismos de atención de Bahdanau y Luong: https://zhuanlan.zhihu.com/p/129316415
  35. El principio de la incrustación de gráficos
  36. El principio de TF-IDF   https://blog.csdn.net/zrc199021/article/details/53728499
  37. El principio de n-gram y qué es el procesamiento de suavizado  https://blog.csdn.net/songbinxu/article/details/80209197
  38. Solución a OOV:  ¿Cómo se ocupa la corriente principal de la investigación de PNL con las palabras sin vocabulario?
  39. Reducción de dimensionalidad de los vectores de palabras
  40. ¿Cuáles son las técnicas de segmentación de palabras de pnl y cómo dividirlas?
  41. ¿Qué métodos de mejora de datos tiene nlp?  Https://blog.csdn.net/Matrix_cc/article/details/104864223
  42. ¿Cuáles son los métodos de preprocesamiento de texto?

Supongo que te gusta

Origin blog.csdn.net/Matrix_cc/article/details/105513836
Recomendado
Clasificación