Python rastrea los comentarios y el aluvión de Son of Tomorrow (Tencent Video) para ver de qué están hablando todos

Enlace original a la cuenta oficial de WeChat

Este verano, varias plataformas de TV y video transmitieron simultáneamente muchos programas de variedades musicales, incluyendo el popular "Summer of the Band", "Son of Tomorrow", "Sound in the Heart", "I Am a Singer", "New Rap de China" "," Buena Voz de China ", etc.

Los siguientes son los puntajes de Douban para estos programas. El verano de la banda ocupó el primer lugar con un puntaje de más de 8 puntos. Soy un cantante 7.6, un hijo de mañana 6.5, un sonido de 6.1, una buena voz china 5.3, un nuevo chino Rap 5.2 puntos.

Xiao Bencong escuchó accidentalmente a algunas chicas hablar sobre el programa "Sons of Tomorrow", y sintió curiosidad, por lo que pensó en rastrear las críticas y el aluvión de "Sons of Tomorrow" para ver de qué estaban hablando todos.

 

1. Obtención de comentarios y datos de bombardeo

Tencent Video es la plataforma de juego de "Sons of Tomorrow". Sabemos que las revisiones de video rastreadas y los datos de bombardeo generalmente tienen un formato fijo. Lo más importante es obtener el video videoID y el archivo que almacena el comentario o bombardeo para encontrar sus números correspondientes .

Abra la dirección de reproducción de video en Google Chrome, deslice algunas páginas hacia abajo para cargar el comentario, use la herramienta de desarrollador (F12) para ver el Id. De comentario en el código fuente, aquí debe usar la herramienta de captura de paquetes. El principio es encontrar y copiar la dirección URL, y recorrer hasta la próxima identificación para almacenar el comentario, de modo que pueda obtener el comentario.

Los encabezados son para verificar las cookies en su navegador. El aluvión se almacena en múltiples js llamados danmu en el video de Tencent. También debe usar el intervalo de tiempo, que probablemente sea el mismo que el método para obtener comentarios.

1  # -*- coding: utf-8 -*-
2  import urllib.request
3  import re
4  import urllib.error
5  import sys
6  non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd)
7  headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36     
         (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36")
8  openr = urllib.request.build_opener()
9  openr.addheaders = [headers]
10 urllib.request.install_opener(openr)
11 commentid= '6555778066593331820'
12 url = "https://video.coral.qq.com/varticle/4005898499/comment/v2? 
        callback=_varticle4005898499commentv2&orinum=10&oriorder=o&pageflag=1&cursor="+
        commentid+"&scorecursor=0&orirepnum=2&reporder=o&reppageflag
        =1&source=132&_=&_=1564890413257"
13 for i in range(0, 100):
14    data = urllib.request.urlopen(url).read().decode()
15    patnext = '"last":"(.*?)"'
16    nextid = re.compile(patnext).findall(data)[0]
17    # print(nextid)
18    patcom = '"content":"(.*?)",'
19    comdata = re.compile(patcom).findall(data)
20    for j in range(0, len(comdata)):
21        print("---第"+str(j)+"条评论内容是:")
22        print(eval('u"'+comdata[j]+'"').translate(non_bmp_map))
23    url = "http://video.coral.qq.com/filmreviewr/c/upcomment/0dfpyvfa7tp0ewe?commentid=" 
          + nextid + "&reqnum=3&callback=jQuery1124028619190818429263_1528385498744&_
          =1528385498747"
24    # print(url)

Este artículo obtiene más de 10 w críticas y un aluvión del número 1-10 de "Sons of Tomorrow" y la película piloto. El texto se analizará en varios aspectos a continuación (código de análisis de datos al final del artículo).

2. Análisis y visualización de datos.

1. ¿A quién le preocupa más?

La mayoría de las personas traerán los nombres de estrellas o jugadores que les gustaría apoyar cuando expresen sus opiniones. Esto también da un buen punto de análisis. Se analizan los 16 nombres principales en la clasificación TOP de frecuencia de palabras, incluido el tutor. Y jugadores. Por supuesto, todos hablan de algunos alias relacionados con estrellas o jugadores. Los siguientes son los datos después de que se agrupan los nombres. Por ejemplo, Hua Chenyu tiene Huahua, Gran Hermano, Zhang Yuqi tiene capitanes, héroes y otros alias.

Otros errores tipográficos también se han fusionado. Las personas más frecuentes tienen más apodos, hay algunas personas que se llaman hermanos mayores, como Gran Hermano Hua, Gran Hermano Shanzhi, Gran Hermano Su, etc.

La imagen de arriba muestra que Hua Chenyu tiene la ventaja absoluta de la frecuencia de 8707 palabras para ocupar el primer debate, por supuesto, esto también está relacionado con el hecho de que ha participado en muchos programas y ha ganado muchos admiradores en los últimos años.

Entre los concursantes, Zhang Yuqi (con la etiqueta más fuerte en la final) con una frecuencia de 5,981 palabras es, sin duda, la parte superior de la discusión.Los 4 mejores jugadores de la discusión son Zhang Yuqi, By2, Hong Yinuo y Feng Xiyao.

 

2. ¿Qué comentarios les encanta decir a los fanáticos?

En los datos de 10 w, use python para contar la frecuencia de las palabras y generar las primeras 200 palabras. Después de eliminar el nombre de la persona, intercepte la parte anterior de los datos y descubra que las palabras más frecuentes en cada población son algunas palabras muy positivas. Tales como, alegría, lindo, agradable, apoyo, fuerza, etc. Pero todavía hay pocas palabras relacionadas con la música, la mayoría de las cuales están relacionadas con los propios jugadores. La esquina superior derecha de la siguiente figura es la frecuencia de palabras, y el área del área rosada también representa la frecuencia total de ocurrencia.

(La imagen de fondo anterior es del estilo oficial del hijo de Tomorrow y no tiene nada que ver con el análisis de frecuencia de palabras)

Las palabras que aparecen en la frecuencia de palabras TOP200 se convierten en un mapa de nube de palabras de la siguiente manera: la probabilidad de que aparezca el nombre es mayor, y otras palabras descritas son más positivas. El esquema de la nube de palabras usa iconos de la Edad de Cristal del Mañana.

 

3. Al mencionar el nombre, ¿qué dicen los fanáticos?

A continuación se seleccionaron varios nombres populares, incluidos 6 mentores y 6 jugadores, formando una nube de palabras de nombres exclusivos, y se ve lo que todos están discutiendo a su alrededor.

Los datos encontraron que las palabras cuando se refieren a By2 son baile, excelente y angustiado, Veegee es especial y adecuado, Feng Xiyao tiene apoyo y buen gusto, Hong Yinuo es estilo, impresionado, retro, North Jiangsu es Su Ge, divertido, Zhang Yuqi es Apoyo, super, espera.

Hua Chenyu es lindo, comentario, concierto, Long Danni es el jefe, Long Jie, comentario, Mao no es fácil de reservar, tímido, superestrella, Meng Meiqi es la rama de la montaña, ah, guapo, Song Dandan es el maestro, flores, música, Es gracioso, Sun Yanzi está cantando, diosa, profesional.

Sin embargo, algunas de las palabras candentes discutidas por los jugadores en general no han cambiado mucho, son similares a las palabras candentes generales de la discusión y no destacan particularmente las características de los jugadores.

4. ¿Qué tal el análisis del sentimiento de la audiencia?

Realice un análisis de opinión en todos los datos y use el paquete de análisis de opinión chino de Python SnowNLP para generar valores de opinión, donde el puntaje está entre 0 y 1. Cuanto más cercano a 0, más negativo es el sentimiento y cuanto más cercano a 1, más positivo es el sentimiento.

Y dibuje el siguiente histograma de distribución de frecuencia. Se puede ver que las emociones de la audiencia están abrumadoramente sesgadas hacia las emociones positivas y, por supuesto, hay opiniones sobre algunas emociones negativas.

Después de analizar a grandes rasgos las emociones de cada actor y cada episodio, se descubre que no hay muchos cambios, y todos tienden a tener emociones positivas.

A continuación, se eliminan parcialmente los comentarios y el aluvión con una puntuación de sentimiento inferior a 0.1 para hacer una imagen de nube de palabras, es decir, ver lo que dicen esos comentarios negativos.

Se puede ver que algunos comentarios negativos se quejan del video de Tencent, algunos son parte de los fanáticos de los demás y hay críticas sobre el problema del programa en los jugadores.

 

Por supuesto, hay gritos y regaños por lo bueno y lo malo del programa. La decisión de un programa de enfrentar al público significa que no solo el programa sino también los jugadores están en riesgo de ser culpados, especialmente los programas de música más recientes. Pero aún insta a todos a mirar de manera civilizada, y no consideren divertido hablar informalmente.

 

Lo anterior es el proceso de rastrear las reseñas y el aluvión de "Sons of Tomorrow" y visualizar el análisis. La cuenta pública de WeChat " estudiante financiero que aprende programación " responde entre bastidores " hijo del mañana " para obtener el código fuente. 【Fin】

Enlace original a la cuenta oficial de WeChat

Recomendado en el pasado

1. Rastrear la reseña de la película Wandering Earth

2. Norte de Shanghai, Guangzhou y Shenzhen libro de casa de alquiler

3. Visualización de rankings universitarios.

4. Video de rastreo de Douyin

5. Código de bendición del día de la madre

¡Tus gustos y atención es mi mayor apoyo!

 

Publicó 11 artículos originales · ganó 11 · visitó 5720

Supongo que te gusta

Origin blog.csdn.net/weixin_39270299/article/details/100175847
Recomendado
Clasificación