Conseguir reptil 1 --- hablar de rastreador web

Conseguir reptil 1 --- hablar de rastreador web

2 --- Conseguir reptil reptiles WebMagic marco

Getting Real reptil reptil 3 ---

1 para hablar de rastreador web

  1.1 ¿Qué es un rastreador web

       rastreadores web o arañas web, la red hormigas, robots de red, la automatización puede navegar por la información en la red, por supuesto, información de examen cuando sea necesario de acuerdo con las normas que establecemos, estas reglas que llamamos algoritmo rastreador web. El uso de Python puede escribir fácilmente, los rastreadores automáticos de recuperación de información en Internet.

       Arañas de los motores de búsqueda no pueden prescindir, como Baidu rastreadores de motores de búsqueda llamado Baidu araña (Baiduspider). Baidu arañas arrastrándose el flujo diario de información por Internet, información de calidad e incluyó el rastreo, cuando el usuario recupera la palabra clave correspondiente en los motores de búsqueda Baidu, Baidu palabra clave análisis identificará a partir de una colección de páginas web páginas relacionadas, ordenados de acuerdo a ciertas reglas de las clasificaciones y los resultados que se presentan al usuario.

       En este proceso, Baidu araña ha jugado un papel crucial. Por lo tanto, la forma de cubrir el Internet la página más alto? Y cómo filtrar estas páginas duplicadas? Estos son determinados por Baidu araña de rastreo algoritmo. El uso de diferentes algoritmos, la eficiencia operativa será diferente reptiles que se arrastran los resultados varían. Por lo tanto, hemos estudiado los reptiles de la época, no sólo para entender cómo los reptiles para lograr, lo que necesita saber algunos algoritmos reptiles comunes, si es necesario, también tenemos que poseer para desarrollar algoritmos apropiados, en esto, sólo tenemos el concepto de los reptiles tienen una comprensión básica.

        Además de los rastreadores de motores de búsqueda Baidu no puede prescindir de los reptiles, otros motores de búsqueda no pueden ser separados, también tienen sus propios rastreadores. Por ejemplo, 360 de reptiles llamados 360Spider, Sogou reptiles llama Sogouspider, Bing reptiles llama Bingbot.

        Si usted quiere ser dueño de un pequeño motor de búsqueda para conseguir, también podemos escribir su propio reptiles para darse cuenta, por supuesto, aunque puede ser inferior a los motores de búsqueda en términos de rendimiento o algoritmo, pero el grado de personalización a ser muy alta, y también nos ayudará a comprender mejor el funcionamiento interno de los motores de búsqueda.

        era del Big Data es también inseparable de reptiles, como durante el análisis de datos de gran tamaño o la minería de datos, podemos ir a algunos de los más grande sitio oficial para descargar la fuente de datos. Sin embargo, estas fuentes de datos es limitado, entonces ¿cómo podemos conseguir más y más alta calidad de la fuente de datos que? En este punto, se puede escribir sus propios procedimientos reptiles, obtener información de datos de Internet.
 

     1.2 ¿Qué hacer rastreador Web

       Nuestra comprensión inicial del rastreador web, el rastreador web específicamente qué podemos hacer? Se puede lograr:

  • motor de búsqueda
  • La era de los grandes datos, nos permite obtener más fuentes de datos
  • prueba de llenado rápido y los datos operativos
  • Proporcionar formación conjunto de datos de AI

       Aquí el autor en 2016 de un recorrido por la ciudad de la opinión pública escenario sistema de investigación como un ejemplo:

       Como puede verse en el sistema de la opinión pública por encima de turismo, los datos de origen de sitios relevantes se rastrean por los rastreadores web, después de ETL, la salida final a la capa de aplicación, para hoteles, complejos turísticos, autobuses turísticos y otros avisos de la opinión pública y la intervención llevada a cabo. ¿Qué pasa si no hay reptiles, los datos de la red simplemente no está disponible, una enorme entrada manual, etc. costes. Así reptiles en general como grandes volúmenes de datos, motores de búsqueda, inteligencia artificial y demás tomas, juega un papel irremplazable en grandes volúmenes de datos de hoy en día, una ola de la inteligencia artificial.

     1.3 Web técnica de oruga común (Java)

         1.3.1 aplicación subyacente HttpClient + Jsoup

       HttpClient es Apache Jakarta Común subproyecto, que se utiliza para proporcionar eficiente, nuevo, compatibilidad con HTTP rico en funciones de protocolo conjunto de herramientas de programación del lado del cliente, y es compatible con HTTP última versión del protocolo y recomendaciones. HttpClient se ha utilizado en muchos proyectos, como Apache Jakarta en las otras dos muy conocidos proyectos de código abierto Cactus y HtmlUnit utilizar el HttpClient . Para obtener más información, visite http://hc.apache.org/ jsoup es un Java 's HTML analizador puede analizar una directas URL direcciones, HTML texto. Proporciona una API del ahorrador de trabajo muy , a través del DOM , CSS y similares jQuery se saca del método de operación y datos de la operación.

         1.3.2 marco de código abierto WebMagic

       WebMagic es un código abierto de Java reptiles marco, el objetivo es simplificar los reptiles proceso de desarrollo, permitiendo a los desarrolladores centrarse en el desarrollo de las funciones lógicas. WebMagic núcleo es muy simple, pero que abarca todo el proceso de reptiles, reptil es un buen desarrollo de materiales de aprendizaje.

          

      características principales: WebMagic

  • diseño completamente modular, potente escalabilidad.
  • El núcleo es simple, sino que abarca todos los procesos de reptiles, flexibles y robustos, sino también de aprendizaje buen material para conseguir reptiles iniciadas.
  • Extracto de las páginas proporcionan una rica API .
  • No configuración, pero puede POJO + implementado en la forma de una anotación de rastreador.
  • Soporte multi-threading.
  • Soportes distribuidos.
  • Apoyar el rastreo js renderizado de páginas dinámicas.
  • la dependencia sin marco, puede ser embebido en un proyecto flexible.    

 

Publicado 41 artículos originales · ganado elogios 47 · Vistas a 30000 +

Supongo que te gusta

Origin blog.csdn.net/u014526891/article/details/102690148
Recomendado
Clasificación