Bringen Sie Ihnen bei, Python zum Crawlen und Speichern von Daten zu verwenden und diese automatisch in Excel zu visualisieren

 


 

Hallo allerseits, lassen Sie uns diskutieren, wie die Daten von der offiziellen Website von Hupu NBA gecrawlt und gleichzeitig in Excel geschrieben werden, um automatisch ein Liniendiagramm zu erstellen. Die wichtigsten Schritte lauten wie folgt:

 

Dieser Artikel wird in die folgenden zwei Teile unterteilt, um ihn separat zu erläutern:

Crawlen Sie auf der Spielerseite der offiziellen Hupu NBA-Website, um Spielerdaten zu erhalten.

Bereinigen und sortieren Sie die gecrawlten Player-Daten und visualisieren Sie sie.

Die wichtigsten am Projekt beteiligten Python-Module:

fordert 
pandas 
bs4 an

Crawler-Teil

Die Idee, Crawler zu sortieren, ist wie folgt

Beobachten Sie den Quellcode von URL1, suchen Sie den Teamnamen und die entsprechende URL2, beobachten Sie den Quellcode von URL2, suchen Sie die URL3, die dem Spieler entspricht, beobachten Sie den URL3-Quellcode, suchen Sie die grundlegenden Informationen und Spieldaten des entsprechenden Spielers und filtern Sie und Geschäft

Tatsächlich arbeitet der Crawler mit HTML, und die Struktur von HTML ist sehr einfach. Es gibt nur eine, dh eine große und eine kleine Box, und die kleine Box ist in einer kleinen Box verschachtelt.

Die Ziel-URL lautet wie folgt:

URL1: http://nba.hupu.com/players/

URL2 (nehmen Sie das Lakers-Team hier als Beispiel): https: //nba.hupu.com/players / ...

URL3 (nehmen Sie James hier als Beispiel): https: //nba.hupu.com/players / ...

Referenzmodul zuerst

von bs4 importieren BeautifulSoupimport requestimport xlsxwriterimport os

Überprüfen Sie den URL1-Quellcode. Sie können das Team-Nomen und die entsprechende URL2 im span-Tag <span-Klasse> sehen

Kürzlich haben sich viele Freunde über Python-Lernprobleme durch private Nachrichten beraten. Um die Kommunikation zu erleichtern, klicken Sie auf das Blau, um an der Diskussion teilzunehmen und die Ressourcenbasis selbst zu beantworten

 

Ich denke du magst

Origin blog.csdn.net/weixin_43881394/article/details/112604930
Empfohlen
Rangfolge