Análisis de datos en python crawler --- explicación detallada de la expresión xpath

1. ¿Qué es xpath?

1. XPath (Lenguaje de ruta XML) es un lenguaje para buscar información en documentos HTML\XML y se puede utilizar para recorrer elementos y atributos en documentos HTML\XML.

2. Saber xml

La diferencia entre html y xml

inserte la descripción de la imagen aquí

estructura de árbol xml

inserte la descripción de la imagen aquí

3. El uso de xpath

XPath usa expresiones de ruta para seleccionar nodos o conjuntos de nodos en un documento XML. Estas expresiones de ruta son muy similares a las expresiones que vemos en los sistemas de archivos de computadora normales.

1 Expresiones útiles

inserte la descripción de la imagen aquí

2. En la siguiente tabla, hemos enumerado algunas expresiones de ruta y los resultados de las expresiones:

inserte la descripción de la imagen aquí

3. Elija nodos desconocidos

inserte la descripción de la imagen aquí

4 algunos casos

inserte la descripción de la imagen aquí

Cuatro Resumen

  1. Una descripción general de xpath XPath (lenguaje de ruta XML), un lenguaje para analizar, buscar y extraer información
  2. Relación de nodo de xpath: nodo raíz, nodo secundario, nodo par
  3. Sintaxis clave de xpath para obtener cualquier nodo: //
  4. Sintaxis clave de xpath para obtener nodos basados ​​en atributos: tag[@attribute='value']
  5. Obtenga el texto del nodo en xpath: text()
  6. Obtener valor de atributo de nodo de xpath: @nombre de atributo

5. Ampliar el conocimiento

1. Personajes de escape

inserte la descripción de la imagen aquí

cuerda cruda

1 Dado que la barra invertida en la cadena tiene un efecto especial, cuando la cadena contiene una barra invertida, debe usar el carácter de escape \ para escapar de cada "" contenido en la cadena.

Por ejemplo, queremos escribir una cadena sobre la ruta de Windows G:\publish\codes\02\2.4. Si escribimos esto directamente en el programa Python, definitivamente no funcionará. Necesitamos usar el carácter de escape \ para cada "" para escapar, es decir, para escribir en forma de G:\publish\codes\02\2.4.

2. La cadena sin procesar comienza con "r", no tratará la barra invertida como un carácter especial.

Supongo que te gusta

Origin blog.csdn.net/m0_74459049/article/details/130305418
Recomendado
Clasificación