- html格式化: "<html>
<head>
<title>
Seitentitel
</ title>
</ head>
<body>
<p align =" center“id = "firstpara">
Dies ist Absatz
<b>
ein
</ b >
</ p>
<p align = "blah" id = "secondpara">
Dies ist Absatz
<b>
zwei
</ b>
</ p>
</ body>
</ html> "soup = BeautifulSoup(html) print soup.prettify()
- Holen Sie sich das erste entsprechende Etikett des Etiketts :oup.label name
print soup.head 输出: <head><title>Page title</title></head>
- Holen Sie sich den Inhalt des entsprechenden Etiketts, um das erste zu erhalten :oup.title.string
- Holen Sie sich alle p-Tags:
soup = BeautifulSoup(''.join(doc),'lxml') print soup.find_all('p')
- Suchen Sie ein Tag basierend auf Attributen:
soup.find(id = 'firstpara')
- Holen Sie sich den gesamten Inhalt von HTML, ausgenommen Tags:
soup.get_text()
- Ändern Sie den Inhalt eines Labels replace_with:
soup = BeautifulSoup(''.join(doc),'lxml') tag = soup.title tag.string.replace_with('hello word hh')
- Geben Sie die untergeordneten Knoten eines Labels in Form einer Liste aus:
soup.head.contents
- Holen Sie sich den übergeordneten Knoten:
soup.title.parent
- Das von der CSS-Auswahlmethode gesuchte ID-Attribut lautet # und die Klasse lautet :.
soup.select('#firstpara')
- Suche nach Attributwert:
soup.select('p[id= "secondpara"] ')
详情请点击:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
Grundlegende Verwendung von BeautifulSoup4
Ich denke du magst
Origin blog.csdn.net/xxy_yang/article/details/92766424
Empfohlen
Rangfolge