Uso básico de BeautifulSoup4

  • html 格式化 : "<html>
     <head>
      <title> Título de la
       página
      </title>
     </head>
     <body>
      <p align =" center "id =" firstpara ">
       Este es el párrafo
       <b>
        uno
       </ b >
      </p>
      <p align = "blah" id = "secondpara">
       Este es el párrafo
       <b>
        dos
       </b>
      </p>
     </body>
    </html> "
       soup = BeautifulSoup(html)
        print soup.prettify()
  • Obtenga la primera etiqueta correspondiente de la etiqueta: soup.label name 
     print soup.head
     输出: <head><title>Page title</title></head>
  • Obtenga el contenido de la etiqueta correspondiente para obtener la primera: soup.title.string
  • Obtenga todas las etiquetas p:
    soup = BeautifulSoup(''.join(doc),'lxml')
    print soup.find_all('p')
  • Encuentre una etiqueta basada en atributos:
    soup.find(id = 'firstpara')
  • Obtenga todo el contenido de html, excluidas las etiquetas:
    soup.get_text()
  • Modificar el contenido de una etiqueta replace_with:
    soup = BeautifulSoup(''.join(doc),'lxml')
    tag = soup.title
    tag.string.replace_with('hello word hh')
  • Genere los nodos secundarios de una etiqueta en forma de lista:
     soup.head.contents
  • Obtenga el nodo principal:
    soup.title.parent
  • El atributo id buscado por el método selector css es #, y la clase es:
    soup.select('#firstpara')
  • Encuentre según el valor del atributo:
    soup.select('p[id= "secondpara"] ')
  • 详情请点击:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

Supongo que te gusta

Origin blog.csdn.net/xxy_yang/article/details/92766424
Recomendado
Clasificación