La construcción del diccionario emocional chino

Este artículo ha participado en la actividad "Ceremonia de creación de recién llegados", y ha iniciado juntos el camino de la creación de Nuggets.

En primer lugar, el análisis de sentimientos en inglés extranjero ha logrado buenos resultados, gracias a la conveniencia del análisis de palabras en inglés y al gran conjunto de datos en inglés WordNet. Sin embargo, debido a la variabilidad del chino, la multiplicidad de la semántica y la falta de conjuntos de datos, el análisis de la opinión interna se queda temporalmente rezagado con respecto a los países extranjeros. Este artículo registrará la experiencia del blogger en la construcción de un diccionario emocional en el proyecto, e invitará a todos a corregirme.

Primero dividimos el léxico de sentimiento en léxico de sentimiento general y léxico de sentimiento especial.

1. Construcción de un diccionario de sentimientos generales

La construcción del diccionario de sentimientos generales se basa principalmente en la integración de los diccionarios de sentimientos de código abierto actuales para filtrar palabras repetitivas e inútiles. En la actualidad, los diccionarios emocionales de código abierto en línea incluyen: diccionario emocional HowNet, diccionario de polaridad emocional chino simplificado de la Universidad Nacional de Taiwán (NTSUSD), ontología de vocabulario emocional de la Universidad Tecnológica de Dalian. Los dos primeros se pueden encontrar en línea, y el tercero debe ir al sitio web oficial de la escuela para presentar la solicitud, y puede obtenerlo después de explicar el propósito.

2. Ampliación del Diccionario Universal de Sentimientos

Los diccionarios emocionales mencionados anteriormente existen desde hace mucho tiempo, por lo que podemos tomar ciertos métodos para expandirlos. El enfoque que tomamos aquí es agregar los sinónimos del diccionario al diccionario. Obtenemos los sinónimos del diccionario utilizando el bosque de sinónimos organizado por el Instituto de Tecnología de Harbin. Cabe mencionar que la primera edición del bosque de sinónimos es relativamente antigua, y ahora hay una versión ampliada del bosque de sinónimos organizado por el Instituto de Harbin. de tecnología. El enlace utilizado está aquí: Harbin Institute of Technology Synonyms Lin Extended Edition También puede utilizar la biblioteca de sinónimos de Python para obtener sinónimos al escribir código. Ha sido de código abierto, el enlace es: sinónimos como:

import synonyms
print("人脸: %s" % (synonyms.nearby("人脸")))
print("识别: %s" % (synonyms.nearby("识别")))
复制代码

3. Construcción del Diccionario de Sentimiento de Dominio

La construcción de un diccionario de sentimientos específico del dominio requiere el uso del cálculo de información mutua de PMI y la entropía izquierda y derecha para descubrir las nuevas palabras requeridas. Para el método específico, podemos agregar palabras semilla emocionales para calcular el grado de información mutua y la entropía izquierda y derecha de cada palabra y las palabras semilla emocionales en el corpus de palabras divididas, y luego combinar el grado de información mutua con la entropía izquierda y derecha y seleccione la palabra emocional más relevante. Las palabras TopN se agregan al diccionario de sentimientos correspondiente. Aquí puede consultar el enlace enlace

cálculo de información mutua

cálculo de información mutua

  • p(x,y) es la probabilidad de que dos palabras aparezcan juntas
  • p(x) es la probabilidad de que aparezca la palabra x
  • p(y) es la probabilidad de que aparezca la palabra y

Ejemplo específico: 4G, tarjeta de red, tarjeta de red 4G; si la frecuencia de palabras de 4G es 2, la frecuencia de palabras de la tarjeta de red es 10 y la frecuencia de palabras de la tarjeta de red 4G es 1, entonces el número total de palabras sueltas es N , y el número total de palabras dobles es M , entonces existe la siguiente fórmulaejemplo específico

entropía izquierda y derecha

Usamos la entropía izquierda y derecha aquí para medir el grado de libertad de las palabras preseleccionadas (la tarjeta de red 4G es una palabra preseleccionada). Definimos la entropía izquierda y derecha aquí como (tomando la entropía izquierda como ejemplo): entropía izquierdaAquí todavía damos un ejemplo específico para entenderlo. Se supone que hay tantas combinaciones alrededor de la tarjeta de red 4G [compre una tarjeta de red 4G , tiene una tarjeta de red 4G y tiene una tarjeta de red 4G, pierde la tarjeta de red 4G] Entonces la entropía izquierda de la tarjeta de red 4G está ejemploaquí A = [comprar, tener, perder]

La siguiente es la implementación específica. La dificultad aquí es cómo obtener estos valores de probabilidad. Los usos vistos por los bloggers son: usar motores de búsqueda para obtener la tasa de co-ocurrencia de palabras, es decir, p(x, y), usar corpus para obtener la probabilidad de ocurrencia de cada palabra

Finalmente, solo nos falta integrar los diccionarios emocionales obtenidos en estos tres pasos.

También puede ir a mi blog personal para discutir y contactar, bienvenido a corregirme. Blog personal de JMX www.jmxgodlz.xyz Referencias: python3 implementa el descubrimiento de nuevas palabras para información mutua y entropía izquierda y derecha

Supongo que te gusta

Origin juejin.im/post/7084922133494628382
Recomendado
Clasificación