función WebMagic --XPath, selectores CSS, la expresión || API regulares elemento de extracción, para obtener los resultados de API || || obtener el enlace para guardar los resultados utilizando el Pipeline

función WebMagic


lograr PageProcessor

  1. Extracción elemento seleccionable

WebMagic se utiliza principalmente tres tecnologías de extracción: XPath, expresiones regulares y selectores CSS . Además, el formato JSON contenido, se puede utilizar para analizar JsonPath.



XPath

selectores CSS

CSS y XPath selectores son un lenguaje similar. XPath de lo que es más fácil de escribir, pero si se escribe la extracción compleja reglas un poco, es relativamente pequeño problema.

Las expresiones regulares

Las expresiones regulares son una extracción de texto lenguaje universal. Aquí se utilizan generalmente para obtener la dirección URL.



elementos de la API de extracción

Seleccionable relacionado con el API cadena elemento de extracción es una función básica de WebMagic. interfaz de uso seleccionable, puede elementos de la página para completar la cadena directa de extracción, no hay necesidad de preocuparse por los detalles extraídos.

Puede ser visto en el ejemplo anterior, page.getHtml () vuelve objetos un HTML , que implementa las interfaces de seleccionables . Esta interfaz contiene métodos caen en dos categorías: la sección de extracción y sección de resultados adquisición.



Obtención de resultados API

Cuando la cadena de llamadas, que generalmente queremos conseguir un resultado de tipo cadena . Esta vez tenemos que utilizar la API para obtener resultados.

Un reglas de extracción, ya sea XPath, el selector CSS o una expresión regular , siempre es posible extraer múltiples elementos. WebMagic éstos se unificaron, se puede conseguir a través de uno o más elementos de diferentes API.



Obtener vínculo

Con la lógica de procesamiento de la página, nuestros rastreadores estarán a punto de finalizar, pero ahora hay un problema: una página del sitio es una gran cantidad de desde el principio que no se pueden enumerar todas, a continuación, siga el enlace para descubrir cómo, no es un reptil una parte integral.



El uso de tuberías Guardar resultados

Componentes WebMagic para guardar los resultados llamados Pipeline . Nos encontramos ahora la "salida de la consola" es a través de un built-in Pipeline completado, se le llama ConsolePipeline .

Pues bien, ahora quiero utilizar los resultados guardados en un archivo , cómo hacerlo? Sólo para darse cuenta de la tubería reemplazada "FilePipeline" en él

​​​​​​​

Publicados 434 artículos originales · ganado elogios 105 · Vistas a 70000 +

Supongo que te gusta

Origin blog.csdn.net/qq_39368007/article/details/105046381
Recomendado
Clasificación