- html 格式化 : "<html>
<head>
<title> Título de la
página
</title>
</head>
<body>
<p align =" center "id =" firstpara ">
Este es el párrafo
<b>
uno
</ b >
</p>
<p align = "blah" id = "secondpara">
Este es el párrafo
<b>
dos
</b>
</p>
</body>
</html> "soup = BeautifulSoup(html) print soup.prettify()
- Obtenga la primera etiqueta correspondiente de la etiqueta: soup.label name
print soup.head 输出: <head><title>Page title</title></head>
- Obtenga el contenido de la etiqueta correspondiente para obtener la primera: soup.title.string
- Obtenga todas las etiquetas p:
soup = BeautifulSoup(''.join(doc),'lxml') print soup.find_all('p')
- Encuentre una etiqueta basada en atributos:
soup.find(id = 'firstpara')
- Obtenga todo el contenido de html, excluidas las etiquetas:
soup.get_text()
- Modificar el contenido de una etiqueta replace_with:
soup = BeautifulSoup(''.join(doc),'lxml') tag = soup.title tag.string.replace_with('hello word hh')
- Genere los nodos secundarios de una etiqueta en forma de lista:
soup.head.contents
- Obtenga el nodo principal:
soup.title.parent
- El atributo id buscado por el método selector css es #, y la clase es:
soup.select('#firstpara')
- Encuentre según el valor del atributo:
soup.select('p[id= "secondpara"] ')
详情请点击:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
Uso básico de BeautifulSoup4
Supongo que te gusta
Origin blog.csdn.net/xxy_yang/article/details/92766424
Recomendado
Clasificación