[Python] Use Python como un rastreador simple para rastrear los comentarios de la estación B

Tabla de contenido

I. Introducción

2. Analizar páginas web

3. Código

1. cabeza

2. Obtener comentario raíz

3. Obtener comentarios de niños

Cuatro, el código total

V. Resumen

I. Introducción

No hay una función de búsqueda para los comentarios de Bilibili, así que escribí un rastreador para rastrear los comentarios de Bilibili y almacenarlos en txt local.

Primero, debe instalar la biblioteca de solicitudes de python y la biblioteca beautifulsoup

solicitudes de instalación de pip

pip instalar bs4

Si aparece correctamente, significa que la instalación se ha realizado correctamente.

Aquí están todas las bibliotecas necesarias

import requests
from bs4 import BeautifulSoup
import re
import json
from pprint import pprint
import time

2. Analizar páginas web

Ejemplo de página web Lanyin "Explorando la ventana" BV18T411G7xJ

Verificamos el código fuente de la página y encontramos que no hay información sobre los comentarios en el código fuente. Continuamos deslizándonos hacia abajo hasta la posición del comentario, y encontramos que el comentario tardó un poco en cargarse antes de aparecer. En este momento, supuse que necesitábamos capturar el paquete para obtener la información del comentario.

Abra F12, consulte las opciones relacionadas con la respuesta en la red y encuentre la información del comentario.

Extraje la URL y revisé los diversos datos dentro

No sé por qué la URL aquí necesita eliminar los datos detrás de la devolución de llamada para verlos normalmente.

Descargue Json Formatter en Edge para una mejor vista.

Encontramos que un paquete no puede mostrar todos los comentarios, continuamos deslizándonos hacia abajo, buscamos datos sobre la respuesta en F12 y extraemos la URL

Se encuentra que solo cambiará el próximo, entonces, ¿qué es el próximo = 1? En la práctica, se encuentra que los datos de next=1 y next=0 son los mismos, por lo que podemos comenzar directamente desde 1 al programar.

Pero descubrimos que solo hay el comentario raíz y no hay subcomentarios. Sospechamos que los subcomentarios están en otro paquete. Verifique los subcomentarios de uno de los comentarios, y hemos capturado un nuevo paquete en F12.

Del mismo modo, extraemos la URL y observamos que las respuestas son los subcomentarios necesarios. Del mismo modo, todas las respuestas no se pueden mostrar en una página.Después de la observación, se encuentra que solo el pn de cada comentario es diferente.

Entonces, ¿cómo se relacionan los subcomentarios y los comentarios raíz?

Al observar la URL, encontramos que la URL del subcomentario tiene raíz, por lo que estudiamos la consistencia entre la raíz y el subcomentario, y encontramos que el rpid de la raíz es la raíz del subcomentario , por lo que encontró la relación.

Finalmente, al escribir el código, encontré un problema, es decir, algunos comentarios raíz no necesitan expandirse, por lo que el elemento de respuestas en el paquete de subcomentarios está vacío, y la información de estos comentarios existe en el paquete de comentarios raíz. , solo necesitamos simplemente simplemente juzgarlo.

Una vez que comprende la estructura, la programación es mucho más simple.