9 XPath *** preferido, otros idiomas también se puede utilizar
Solicitud data_text = 9,1 (URL, PARAM, cabecera) .text
9.2 Árbol = etree.parse (data_text) /etree.HTML (data_text)
Lista 9.3 tree.xpath = ( '// nombre de la etiqueta / etiqueta = nombre de la etiqueta @ nombre de' / /a.text()[0] | // nombre de la etiqueta / etiqueta @ name = nombre de la etiqueta '//a.text()[0]')
9.4 para paginación parámetro PARAM,
9.5 "./" representa el directorio actual, en la nueva URL debe ser empalmado por el antiguo camino URL URL 1 + URL2.
9,6 veces los datos adquiridos es ininteligible: una posición generalmente ilegible img_name.encode añadido ( '-8895-1 iso') de decodificación ( 'gbk') que codifica, y a veces no hay efecto sobre la posición global response.encoding = "UTF-8". en la codificación. Pero no se puede utilizar.
#! / Usr / bin / env python
- - codificación: UTF-8 - -
de lxml
etree importación
si el nombre == “ principal ”:
árbol = etree.parse ( 'test.html')
r = tree.xpath ( '/ html / cuerpo / div')
r = tree.xpath ( '/ html // div')
r = tree.xpath ( '// div')
r = tree.xpath ( '// div [@ class = ‘canción’]')
r = tree.xpath ( '// div [@ class = ‘tang’] // li [5] / a / de texto ()') [0]
r = tree.xpath ( '// li [7] // texto ()')
r = tree.xpath ( '// div [@ class = ‘tang’] // texto ()')
r = tree.xpath('//div[@class="song"]/img/@src')
print(r)