[Netzwerksicherheit führt Sie zum Üben von Crawlern – 100 Übungen] Übung 3: Durchlaufen Sie die Elemente in der erhaltenen Liste

Inhaltsverzeichnis

I. Einleitung:

Zweitens: Analysieren Sie den Code

3. Verbessern Sie den Code


I. Einleitung:

(1) In dieser Übung verbessern wir die Datenverarbeitung

(2) Durchsuchen und Crawlen von Inhalten innerhalb desselben Tags

Was den letzten Teil des Codes angeht: Sind wir im früheren Namen „High-Tech Enterprise“ und „Enterprise Technology ZTE“ tätig?

(Das heißt, für die Beschreibung des Unternehmens bezieht es sich auf das Crawlen zum ersten)



Zweitens: Analysieren Sie den Code

Der letzte Code:

company_type = item.find('div', attrs={'class': 'index_tag-list__wePh_'}).find_all('div', attrs={'class': 'index_tag-common__edIee'})[0].text

Codekommentare:

(1) item.find('div', attrs={'class': 'index_tag-list__wePh_'}) bedeutet, das <div>-Element mit dem Klassenattribut 'index_tag-list__wePh_' in der durch die Variable item dargestellten HTML-Seite zu finden . Diese Methode gibt das erste <div>-Element zurück, das die Bedingung erfüllt.

(2).find_all('div', attrs={'class': 'index_tag-common__edIee'}) bedeutet, weiterhin alle <div>s mit dem Klassenattribut 'index_tag-common__edIee' im zuvor gefundenen <div>-Element zu finden Element. Diese Methode gibt eine Liste zurück, die alle Elemente enthält, die die Bedingung erfüllen.

(3) [0].text bedeutet, das erste Element aus der zuvor zurückgegebenen Liste zu übernehmen und seinen Textinhalt abzurufen. .text ist eine Methode in der BeautifulSoup-Bibliothek, die den Textinhalt eines Elements extrahiert.


Operationsergebnis


3. Verbessern Sie den Code

Ändern Sie den Code:

Um den gesamten Textinhalt im div-Element abzurufen, dessen Klassenattribut index_tag-common__edIee ist

company_type = item.find('div', attrs={'class': 'index_tag-list__wePh_'}).find_all('div', attrs={'class': 'index_tag-common__edIee'}) 
tpye_texts = [element.text for element in company_type]

Dadurch wird eine Liste zurückgegeben, die den Textinhalt aller übereinstimmenden div-Elemente enthält.


Anmerkungen:

(1) item.find('div', attrs={'class': 'index_tag-list__wePh_'}) bedeutet, das <div>-Element mit dem Klassenattribut 'index_tag-list__wePh_' in der durch die Variable item dargestellten HTML-Seite zu finden . Diese Methode gibt das erste <div>-Element zurück, das die Bedingung erfüllt.

(2).find_all('div', attrs={'class': 'index_tag-common__edIee'}) bedeutet, weiterhin alle <div>s mit dem Klassenattribut 'index_tag-common__edIee' im zuvor gefundenen <div>-Element zu finden Element. Diese Methode gibt eine Liste zurück, die alle Elemente enthält, die die Bedingung erfüllen.

(3) type_texts = [element.text für Element in company_type] ist ein Listenverständnis. Es durchläuft jedes Element in der Liste namens „company_type“ und verwendet die .text-Methode, um den Textinhalt jedes Elements abzurufen. Dadurch wird eine neue Liste „type_texts“ erstellt, die den Textinhalt jedes Elements in der Liste „company_type“ enthält.


Die Ergebnisanzeige:



Netzwerksicherheits-Clique

README.md Buch Bansheng/Network Security Knowledge System-Practice Center-Code Cloud-Open Source China (gitee.com) icon-default.png?t=N5K3https://gitee.com/shubansheng/Treasure_knowledge/blob/master/README.md

GitHub – BLACKxZONE/Treasure_knowledge icon-default.png?t=N5K3https://github.com/BLACKxZONE/Treasure_knowledge

Supongo que te gusta

Origin blog.csdn.net/qq_53079406/article/details/131547500
Recomendado
Clasificación