Resumen de conceptos básicos de reptiles 4

Conceptos básicos de reptiles 4

Expresión regular

 P = re.compile (regex, re.S)

  P.findall ("str")

  P.sub ("_", "str")

 re.findall (regex, "str")

 re.sub (expresión regular, "_", str)

 La cadena original r ignora el efecto de escapar en el normal

 re.findall ("<p> (. *?) </p>", sre)

xpath

 Obtener texto

  Un texto()

  Un texto()

  A [text () = "Página siguiente"]

 @ Símbolo

  Obtener atributo A / @ href

  Posición A [@ class = 'a'] basada en atributos

 //

  Poner al frente de xpath significa seleccionar cualquier elemento de la página html de la página actual

  A // text () obtiene el texto de cualquier elemento bajo A

 // a [1] primero

 // a [last ()] last

 // a [position () <3] toma los dos primeros

 // a [1] | // a [3] | significa OR

lxml

 1.desde la calle de importación lxml

 2.elemento = calle.HTML (bytes / str)

  Devuelve un objeto elemento con xpath

 3.etree.tostring (elemento) devuelve el formato de cadena en el elemento

 element.xpath

  1. Grupo primero

  2. Extraer datos en grupos

   li.xpath ("./ a / text ()")

   li.xpath ("./ a / @ href")

Supongo que te gusta

Origin www.cnblogs.com/wsilj/p/12736407.html
Recomendado
Clasificación