Inhaltsverzeichnis
Zweitens: Analysieren Sie den Code
I. Einleitung:
(1) In dieser Übung verbessern wir die Datenverarbeitung
(2) Durchsuchen und Crawlen von Inhalten innerhalb desselben Tags
Was den letzten Teil des Codes angeht: Sind wir im früheren Namen „High-Tech Enterprise“ und „Enterprise Technology ZTE“ tätig?
(Das heißt, für die Beschreibung des Unternehmens bezieht es sich auf das Crawlen zum ersten)
Zweitens: Analysieren Sie den Code
Der letzte Code:
company_type = item.find('div', attrs={'class': 'index_tag-list__wePh_'}).find_all('div', attrs={'class': 'index_tag-common__edIee'})[0].text
Codekommentare:
(1) item.find('div', attrs={'class': 'index_tag-list__wePh_'}) bedeutet, das <div>-Element mit dem Klassenattribut 'index_tag-list__wePh_' in der durch die Variable item dargestellten HTML-Seite zu finden . Diese Methode gibt das erste <div>-Element zurück, das die Bedingung erfüllt.
(2).find_all('div', attrs={'class': 'index_tag-common__edIee'}) bedeutet, weiterhin alle <div>s mit dem Klassenattribut 'index_tag-common__edIee' im zuvor gefundenen <div>-Element zu finden Element. Diese Methode gibt eine Liste zurück, die alle Elemente enthält, die die Bedingung erfüllen.
(3) [0].text bedeutet, das erste Element aus der zuvor zurückgegebenen Liste zu übernehmen und seinen Textinhalt abzurufen. .text ist eine Methode in der BeautifulSoup-Bibliothek, die den Textinhalt eines Elements extrahiert.
Operationsergebnis
3. Verbessern Sie den Code
Ändern Sie den Code:
Um den gesamten Textinhalt im div-Element abzurufen, dessen Klassenattribut index_tag-common__edIee ist
company_type = item.find('div', attrs={'class': 'index_tag-list__wePh_'}).find_all('div', attrs={'class': 'index_tag-common__edIee'})
tpye_texts = [element.text for element in company_type]
Dadurch wird eine Liste zurückgegeben, die den Textinhalt aller übereinstimmenden div-Elemente enthält.
Anmerkungen:
(1) item.find('div', attrs={'class': 'index_tag-list__wePh_'}) bedeutet, das <div>-Element mit dem Klassenattribut 'index_tag-list__wePh_' in der durch die Variable item dargestellten HTML-Seite zu finden . Diese Methode gibt das erste <div>-Element zurück, das die Bedingung erfüllt.
(2).find_all('div', attrs={'class': 'index_tag-common__edIee'}) bedeutet, weiterhin alle <div>s mit dem Klassenattribut 'index_tag-common__edIee' im zuvor gefundenen <div>-Element zu finden Element. Diese Methode gibt eine Liste zurück, die alle Elemente enthält, die die Bedingung erfüllen.
(3) type_texts = [element.text für Element in company_type] ist ein Listenverständnis. Es durchläuft jedes Element in der Liste namens „company_type“ und verwendet die .text-Methode, um den Textinhalt jedes Elements abzurufen. Dadurch wird eine neue Liste „type_texts“ erstellt, die den Textinhalt jedes Elements in der Liste „company_type“ enthält.
Die Ergebnisanzeige:
Netzwerksicherheits-Clique
GitHub – BLACKxZONE/Treasure_knowledge https://github.com/BLACKxZONE/Treasure_knowledge