Ojos picantes en la puntuación baja "The Deer Tripod" Utilizo los datos para decirle a qué esposa Wei Xiaobao está más cerca

Producido por CDA Data Analyst  

Autor: Mika

Datos: Zhenda  

[Guía]

Recientemente, la nueva versión de "La leyenda del ciervo" protagonizada por Zhang Yishan ha sido criticada en búsquedas candentes. Originalmente, debido a la excelente actuación en "Remaining Sin", la expectativa de la audiencia de Zhang Yishan como Wei Xiaobao no era baja. Sin embargo, a los pocos días de la transmisión, el boca a boca cayó por un precipicio. Douban obtuvo 2.6 , sentado directamente en la peor versión de "The Deer Tripod" en la historia.

Los internautas no solo criticaron las habilidades de actuación exageradas, sino que también saltaron de la trama. En el libro original, Wei Xiaobao, que es inteligente e ingenioso, quedó atónito con Zhang Yishan como un espectáculo de monos, lo que hizo que la gente se sintiera tan avergonzada como sentarse sobre agujas, como una espina en la espalda y como una garganta.

¿Es realmente tan malo el nuevo "Trípode de ciervo" ? ¿Cuál de las versiones principales de "The Deer and Ding Ji" es la más clásica ? Entre las siete esposas, ¿ cuál le gusta más a Wei Xiaobao ? Hoy usaremos los datos para hacer una buena ronda.

01. Cuenta atrás las distintas ediciones de "The Deer and Ding Ji" ¿cuál es la más aclamada?

Como último trabajo de Jin Yong antes de que se sellara la pluma, desde 1984 hasta el presente, han surgido interminablemente varias versiones de "The Deer and Ding Ji". Contando las distintas ediciones de "The Deer and Ding Ji", ¿cuál es la más aclamada?

Aquí comparamos las siete versiones con las que todos están más familiarizados, a saber:

  • Tony Leung Edición 1984
  • Stephen Chow Edición 92
  • Edición 98 de Chen Xiaochun
  • Edición Zhang Weijian de 00 años
  • 2008 Edición Huang Xiaoming
  • 14 años de edición Han Dong
  • 20 años de edición Zhang Yishan

Comparación de las puntuaciones de Douban de diferentes ediciones

En la puntuación de Douban, puede ver que las versiones de Tony Leung, Stephen Chow, Chen Xiaochun y Zhang Weijian anteriores al 2000 tienen buena reputación y las puntuaciones están por encima de los 7 puntos. En particular, la edición de 1998 de Chen Xiaochun recibió la puntuación más alta de 8.8 puntos, convirtiéndose en un clásico en los corazones de innumerables audiencias. Después de eso, Huang Xiaoming y Han Dong rondaron los 5 y 6 puntos. La versión de Zhang Yishan fue la más baja, solo 2.6 puntos.

Distribución de la evaluación de "The Deer and Ding Ji"

Luego analizamos la evaluación de cada versión y podemos ver que Chen Xiaochun recibió los mayores elogios, alcanzando el 92%. La versión de Zhang Yishan es el otro extremo, con una calificación negativa del 92%.

02. Peor "The Deer Ding Ji" Douban puntúa 2,6 ¿Está mal?

Así que el peor de la historia "The Deer Ding Ji" Douban tiene una puntuación de 2,6, ¿está mal?

Distribución de calificaciones por estrellas en la edición de Zhang Yishan de "The Deer and Ding Ji"

Analizamos y rastreamos 500 datos de puntuación de Douban, y podemos ver que el 87,2% de ellos dan 1 estrella, lo cual es una crítica abrumadoramente mala.

Comparación de mapas de nube de palabras: versión de Chen Xiaochun VS versión de Zhang Yishan

¿De qué están hablando todos? Comparamos la versión de Chen Xiaochun con la puntuación más alta y la versión de Zhang Yishan con la puntuación más baja de "The Deer and Ding Tale", y podemos ver que la evaluación de todos de la versión de Chen Xiaochun se centra en los elogios "clásicos" y "bonitos".

En la evaluación de Zhang Yishan, "exagerado", "no soporto", "forzado", "feo" y otras quejas surgieron sin cesar.

Los puntos de discusión de la evaluación también se centraron principalmente en la actuación, la exageración y la trama de Zhang Yishan.

03. El análisis de datos le dice a qué esposa Wei Xiaobao está más cerca.

Uno de los aspectos más destacados de "El ciervo y Ding Ji" son las siete hermosas esposas de Wei Xiaobao. En las versiones anteriores, las siete esposas son todas hermosas y únicas, lo cual es inolvidable.

Wei Xiaobao y sus siete esposas "El cuento de los ciervos y el ding" de Chen Xiaochun

Sin embargo, las siete esposas en la nueva versión hicieron que los internautas gritaran a ciegas, cada una de ellas estúpidamente confusa.

Las siete esposas de Wei Xiaobao

Entonces, ¿cuál de las siete esposas de Wei Xiaobao es la más cercana? Rastreamos el archivo txt de toda la novela de "The Deer Ding Ji" y usamos el análisis de datos para decirte.

Primero, definimos el índice de intimidad así : hay diferentes pasajes en la novela, y usamos el número de veces que Wei Xiaobao y sus siete esposas aparecen juntos en el mismo párrafo como índice de intimidad. Suponiendo que Wei Xiaobao y Shuang'er aparezcan en el mismo párrafo, la intimidad entre Wei Xiaobao y Shuang'er es +1.

El proceso de implementación general es el siguiente:

  • Rastreador web para texto novedoso
  • Limpieza y organización de datos
  • Exploración de visualización de datos
  • Análisis de asociación a priori

1. Nuevo rastreador web de texto

Elegimos el sitio web de Jinyong Portfolio para la captura de datos, la URL es: http://jinyong.zuopinj.com/

Ideas sobre orugas:

  • Primero solicite la URL de la página de inicio de la novela para obtener la URL de la página de detalles de cada capítulo;
  • Luego solicite la URL de la página de detalles y analice y extraiga los datos de texto;
  • Guarde los datos capturados en archivos txt locales en capítulos.

Código de implementación:

# 导入库
import requests
import parsel
import os
from multiprocessing.dummy import Pool

class JinyongSpider(object):
    def __init__(self):
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
          AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
        }
        # 保存子页面的url
        self.titles = []
        self.chapter_links = []

        # 创建一个文件夹
        if not os.path.exists('../鹿鼎记'):
            os.mkdir('../鹿鼎记')

    def parse_home_page(self, url='http://jinyong.zuopinj.com/3/'):
        # 发起请求
        response = requests.get(url, headers=self.headers)
        # 修改编码
        response.encoding = response.apparent_encoding
        # 解析数据
        selector = parsel.Selector(response.text)
        # 获取数据
        title = selector.xpath('//div[@class="book_list"]/ul/li/a/@title').extract()
        chapter_link = selector.xpath('//div[@class="book_list"]/ul/li/a/@href').extract()

        # 追加数据
        self.titles.extend(title)
        self.chapter_links.extend(chapter_link)

    def parse_detail_page(self, zip_list):
        print(f'正在爬取{zip_list[0]}章节的小说!')

        # 发起请求
        response = requests.get(url=zip_list[1])
        # 修改编码
        response.encoding = response.apparent_encoding
        # 解析数据
        selector = parsel.Selector(response.text)
        # 获取数据
        noval_text = selector.xpath('//div[@id="htmlContent"]//text()').extract()
        noval_text = '\n'.join(noval_text)

        # 写出数据
        with open(f'../鹿鼎记/{zip_list[0]}.txt', 'w', encoding='utf-8') as fp:
            print(f'正在写入{zip_list[0]}章')
            fp.write(noval_text)
            fp.close()
            print('写入完毕,关闭文件!')

    def multiprocees_function(self):
        # 实例化线程,一个进程开启多个线程
        pool = Pool(10)
        zip_list = list(zip(self.titles, self.chapter_links))
        # map操作(将zip_list中的每一个列表元素map到get_video_data的函数中,parse_detail_page这
        个函数接收的是列表元素)
        pool.map(self.parse_detail_page, zip_list)
        # 关闭线程池
        pool.close()
        # 主线程等待子线程结束之后再结束
        pool.join()

if __name__ == '__main__':
    # 实例化对象
    jinyongspider = JinyongSpider()
    # 先获取章节页面链接
    jinyongspider.parse_home_page(url='http://jinyong.zuopinj.com/3/')
    # 通过线程池运行爬虫
    jinyongspider.multiprocees_function()

Los datos rastreados se guardan localmente y el formato es el siguiente:

2. Limpieza y clasificación de datos

Utilice pandas para preprocesar los datos. Las ideas de procesamiento específicas son las siguientes:

  • Primero, divida el texto de la novela rastreada en una lista según los párrafos;
  • Recorra la lista para que coincida con si cada nombre aparece en cada párrafo. La ocurrencia se marca como T, de lo contrario es F.

El formato después del procesamiento es el siguiente:

3. Visualización de datos

Importe los datos procesados ​​a SPSS Modeler para su posterior análisis de minería de datos. Los siguientes son algunos resultados del análisis:

El número de apariciones de Wei Xiaobao en el párrafo del artículo.

Los párrafos del artículo después del preprocesamiento tienen un total de 7880 registros, de los cuales la palabra clave "Wei Xiaobao" apareció 4.981 veces, lo que representa el 63,21%.

La estrecha relación entre Wei Xiaobao y sus siete esposas

En el diagrama de vínculos, se puede ver que Shuang'er tiene la puntuación de intimidad más alta, apareciendo 284 veces en el mismo párrafo que Wei Xiaobao.

entre ellos:

  • Los vínculos fuertes son Shuang'er, Shizhu, Ak y Fang Yi;
  • El enlace medio es Su Quan;
  • Los eslabones débiles son la princesa Jianning y Zeng Rou.

Enlace diagrama de relación entre personajes

También podemos dibujar el diagrama de relación de vínculos entre los personajes.

4. Análisis de asociación a priori

El algoritmo Apriori es un algoritmo que se usa comúnmente para extraer reglas de asociación de datos y se puede usar para encontrar conjuntos de datos que aparecen con frecuencia en valores de datos.

En el algoritmo Apriori, el grado de soporte representa la proporción del número de ocurrencias de varios datos relacionados en el conjunto de datos en el conjunto de datos total, y el grado de confianza refleja la probabilidad de que ocurra un dato tras otro, o el condicional probabilidad de los datos.

El siguiente es el resultado de ejecutar bajo los parámetros definidos como el soporte de condición mínimo del 3% y la confianza mínima del 30% :

De los resultados del análisis, se puede ver que en el caso de una doble ocurrencia, hay una probabilidad del 79.77% de que aparezca Wei Xiaobao. Esta situación representa el 4,5% del conjunto de datos.

Conclusión

Eso es todo al respecto. Lo último que quiero decir es que para el remake, tantas joyas están al frente, es inevitable que se comparen. Debido a esto, deberíamos pensar en cómo disparar diferentes reflejos del trabajo anterior. En lugar de imitar ciegamente una textura inferior.

La razón por la que un clásico se convierte en un clásico es porque es difícil de superar . Todavía espero ver mejores remakes domésticos en el futuro.

 

Supongo que te gusta

Origin blog.csdn.net/yoggieCDA/article/details/109989646
Recomendado
Clasificación