Ejemplo 1 del rastreador de Python

Página web

http://www.pythonscraping.com/pages/warandpeace.html

Escriba la descripción de la imagen aquí

Esto es guerra y paz, y los caracteres verdes son nombres de personas.

Código fuente de la página web

La tecla de método abreviado Ctrl + U puede mostrar el código fuente de la página web
Escriba la descripción de la imagen aquí

Observe el código fuente y descubra que es todo <span class="red">o<span class="green">

La fuente verde que representa el nombre de la persona es<span class="green">

Código de rastreo de Python

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
bsObj = BeautifulSoup(html, "lxml")
nameList = bsObj.findAll("span", {
   
   "class":"green"})

for name in nameList:
    print(name.get_text())

Producción:

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna

El código proviene del libro "Adquisición de datos de red de Python".

Supongo que te gusta

Origin blog.csdn.net/xtingjie/article/details/73136105
Recomendado
Clasificación