Hallo allerseits, lassen Sie uns diskutieren, wie die Daten von der offiziellen Website von Hupu NBA gecrawlt und gleichzeitig in Excel geschrieben werden, um automatisch ein Liniendiagramm zu erstellen. Die wichtigsten Schritte lauten wie folgt:
Dieser Artikel wird in die folgenden zwei Teile unterteilt, um ihn separat zu erläutern:
Crawlen Sie auf der Spielerseite der offiziellen Hupu NBA-Website, um Spielerdaten zu erhalten.
Bereinigen und sortieren Sie die gecrawlten Player-Daten und visualisieren Sie sie.
Die wichtigsten am Projekt beteiligten Python-Module:
fordert pandas bs4 an
Crawler-Teil
Die Idee, Crawler zu sortieren, ist wie folgt
Beobachten Sie den Quellcode von URL1, suchen Sie den Teamnamen und die entsprechende URL2, beobachten Sie den Quellcode von URL2, suchen Sie die URL3, die dem Spieler entspricht, beobachten Sie den URL3-Quellcode, suchen Sie die grundlegenden Informationen und Spieldaten des entsprechenden Spielers und filtern Sie und Geschäft
Tatsächlich arbeitet der Crawler mit HTML, und die Struktur von HTML ist sehr einfach. Es gibt nur eine, dh eine große und eine kleine Box, und die kleine Box ist in einer kleinen Box verschachtelt.
Die Ziel-URL lautet wie folgt:
URL1: http://nba.hupu.com/players/
URL2 (nehmen Sie das Lakers-Team hier als Beispiel): https: //nba.hupu.com/players / ...
URL3 (nehmen Sie James hier als Beispiel): https: //nba.hupu.com/players / ...
Referenzmodul zuerst
von bs4 importieren BeautifulSoupimport requestimport xlsxwriterimport os
Überprüfen Sie den URL1-Quellcode. Sie können das Team-Nomen und die entsprechende URL2 im span-Tag <span-Klasse> sehen
Kürzlich haben sich viele Freunde über Python-Lernprobleme durch private Nachrichten beraten. Um die Kommunikation zu erleichtern, klicken Sie auf das Blau, um an der Diskussion teilzunehmen und die Ressourcenbasis selbst zu beantworten