Obtenez le nom et l'adresse des 100 meilleures œuvres dans le classement de la station B par Crawler

Comment parcourir les travaux de classement quotidien en temps réel et les adresses de Xiaopo Station?

Ouvrez la station B et cliquez sur la liste de classement des œuvres à la station B pour accéder à la liste de classement.
Insérez la description de l'image ici
Cliquez avec le bouton droit pour vérifier le code source et trouver la position de code source correspondante de l'œuvre. À ce stade, nous connaissons la position approximative correspondante de le travail dans le code.
Insérez la description de l'image ici
Puis importez les requêtes et BeautifulSoup dans Pycharm

import requests
from bs4 import BeautifulSoup

Insérez la description de l'image ici
Comme la position approximative correspondant à l'œuvre est dans le bloc div (class = 'info'), utilisez find_all pour trouver cette position de toutes les œuvres. (La station B n'a pas besoin d'obtenir des en-têtes pour déguiser l'en-tête pour pouvoir y accéder avec succès)

url = 'https://www.bilibili.com/v/popular/rank/all'
res = requests.get(url)	# B站不用获取headers伪装头
name_list = []	
b_list = BeautifulSoup(res.text, 'lxml').find_all('div', class_='info')
print(b_list)

À ce stade, le code source dans info est obtenu. Le
Insérez la description de l'image ici
travail et l'adresse dont nous avons besoin sont également dedans, nous devons donc l'obtenir une deuxième fois et définir la variable q pour parcourir le code. Recevoir avec la liste vide name_list créée au début, définir le genre de mettre l'adresse href.

for q in b_list:
    name_list.append(q.a.text)
    kind = q.find('a')

Enfin, triez l'affichage.

for i, x in enumerate(name_list):
    print(i+1, x+"\t"+'地址:'+kind['href']+'\n')

Insérez la description de l'image ici
L'exploration a réussi! La séquence est le numéro de série + le nom du travail + l'adresse.

Je suppose que tu aimes

Origine blog.csdn.net/JasonZ227/article/details/109962293
conseillé
Classement