Grundlegende Verwendung von BeautifulSoup4

  • html格式化: "<html>
     <head>
      <title>
       Seitentitel
      </ title>
     </ head>
     <body>
      <p align =" center“id = "firstpara">
       Dies ist Absatz
       <b>
        ein
       </ b >
      </ p>
      <p align = "blah" id = "secondpara">
       Dies ist Absatz
       <b>
        zwei
       </ b>
      </ p>
     </ body>
    </ html> "
       soup = BeautifulSoup(html)
        print soup.prettify()
  • Holen Sie sich das erste entsprechende Etikett des Etiketts :oup.label name 
     print soup.head
     输出: <head><title>Page title</title></head>
  • Holen Sie sich den Inhalt des entsprechenden Etiketts, um das erste zu erhalten :oup.title.string
  • Holen Sie sich alle p-Tags:
    soup = BeautifulSoup(''.join(doc),'lxml')
    print soup.find_all('p')
  • Suchen Sie ein Tag basierend auf Attributen:
    soup.find(id = 'firstpara')
  • Holen Sie sich den gesamten Inhalt von HTML, ausgenommen Tags:
    soup.get_text()
  • Ändern Sie den Inhalt eines Labels replace_with:
    soup = BeautifulSoup(''.join(doc),'lxml')
    tag = soup.title
    tag.string.replace_with('hello word hh')
  • Geben Sie die untergeordneten Knoten eines Labels in Form einer Liste aus:
     soup.head.contents
  • Holen Sie sich den übergeordneten Knoten:
    soup.title.parent
  • Das von der CSS-Auswahlmethode gesuchte ID-Attribut lautet # und die Klasse lautet :.
    soup.select('#firstpara')
  • Suche nach Attributwert:
    soup.select('p[id= "secondpara"] ')
  • 详情请点击:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

Ich denke du magst

Origin blog.csdn.net/xxy_yang/article/details/92766424
Empfohlen
Rangfolge