¿Cómo usar el rastreador de Python para rastrear los datos del bombardeo de la estación B?

Bilibili es bien conocido como el paraíso del bombardeo. Cuanta más gente vea el video, más bombardeo será. Hoy, Xiaoqian le enseñará cómo usar Python para desarrollar un rastreador para rastrear los datos del bombardeo de la estación B.

1. ¿Dónde encontrar el bombardeo?

Por lo general, cuando miramos el video, el aluvión aparece en el video. De hecho, en la página web, el aluvión está oculto en el código fuente y cargado en el formato de datos XML:

1.jpg

XML, como JSON y YAML, es una forma común de expresar información de marcado, que puede entenderse simplemente como un formato para registrar datos. XML es muy similar a HTML, el lenguaje utilizado para describir las páginas web, por lo que verá etiquetas como <d> </d> en la captura de pantalla.

Entonces, ¿cuál es la URL del archivo de barrera en la imagen de arriba ?

https://comment.bilibili.com/92542241.xml

Se compone de una dirección URL fija + video cid + .xml. Siempre que encuentre el cid de video que desea, reemplace esta URL para rastrear todas las pantallas de viñetas (el límite de subtítulos en la mayoría de las páginas web de la estación b es 1000).

¿Dónde está el cid de un video ? Haga clic con el botón derecho en la página web, abra el código fuente de la página web y busque "cid" para encontrar:

Cid es una frase muy común en el código fuente web, y el cid correcto que estamos buscando se escribirá en forma de "cid": xxxxxxxx. Para reducir el alcance de la búsqueda, agregar comillas hará que la búsqueda sea más rápida.

Con el cid correcto , deletree la url, ¡escriba un rastreador!

2. ¿Qué es exactamente una biblioteca de rastreadores?

Básicamente, todos aquellos que son nuevos en los rastreadores de Python entrarán en contacto con las dos bibliotecas de herramientas de solicitudes y BeautifulSoup, que son dos bibliotecas básicas de uso común. solicitudes se utiliza para iniciar una solicitud a la URL del sitio web para obtener el código de la página web; BeautifulSoup se utiliza para analizar el contenido HTML / XML y extraer la información importante que contiene.

3.jpg

Estas dos bibliotecas simulan el proceso de personas que acceden a las páginas web, leen las páginas web y copian y pegan la información correspondiente, y pueden completar el rastreo de datos en lotes y rápidamente.

3. Empiece a rastrear

Observando la página web, puede encontrar que todas las pantallas de viñetas están ubicadas bajo la etiqueta <d>, luego necesitamos construir un programa para obtener todas las etiquetas <d>:

El primer paso es importar la biblioteca de solicitudes y usar el método request.get para acceder a la url de barrera:

solicitudes de importación

#Obtener datos de la página html

url = r'https: //comment.bilibili.com/78830153.xml '

r = request.get (url) # URL de acceso

r.encoding = 'utf8'

El segundo paso es importar la biblioteca BeautifulSoup y usar el analizador lxml para analizar la página:

desde bs4 importar BeautifulSoup

#Parse página

soup = BeautifulSoup (r.text, 'lxml') # lxml es un analizador de uso común, debe instalar la biblioteca lxml con la herramienta pip de antemano

d = soup.find_all ('d') # Encuentra las etiquetas d de todas las páginas

#impresión (d)

Después de hacer esto, todo el contenido de barrera oculto en la etiqueta d es capturado por python:

4.gif

# Analice la pantalla de viñetas, organice la pantalla de viñetas, la URL y la hora en un diccionario y, finalmente, agréguelo a una lista, un total de 1000 datos.

8.png

6.jpg

Después de ordenar los datos, también podemos analizar, como la frecuencia del vocabulario, etc., que se pueden manejar libremente según las necesidades.

7.jpg

Este artículo es de Qianfeng Education , indique la fuente para la reimpresión.

Supongo que te gusta

Origin blog.51cto.com/15128702/2668077
Recomendado
Clasificación