Clasificación reptil - rastreador web general, el rastreador web enfocada, incrementales rastreador web, rastreador web profunda

clasificación de reptiles

sistema rastreador web de acuerdo a la estructura e implementación de técnicas se pueden dividir en los siguientes tipos: rastreador en general, centrándose un rastreador web, rastreador web incrementales, rastreador web profunda . El sistema actual tecnología de rastreador rastreador web normalmente varios combinada para lograr



Rastreador Web universal

General de rastreador Web, también conocido como rastreador de toda la red (Scalable Web de rastreadores) , se arrastra objetos de algunas de las URL de semillas ampliado a toda la Web, el motor de búsqueda del sitio del portal principalmente para grandes proveedores de servicios de red y de recogida de datos.

Gran variedad y número de rastreo, tales rastreador web, de los requisitos de velocidad y alta fluencia de almacenamiento para rastrear páginas requisitos de orden son relativamente bajos, y debido a demasiadas páginas se actualicen, por lo general el trabajo en paralelo, pero se necesita mucho tiempo para actualizar la página.

En pocas palabras, se trata de rastrear todos los datos en Internet.


Web de rastreadores de enfoque

Focus rastreador (Centrado sobre orugas), también conocido como el rastreador tema (Topical Info-orugas) , se refiere a arrastrarse selectivamente aquellos con pre-definido tema página correspondiente de la rastreador web.

Y rastreador web en general en comparación con los reptiles de enfoque sólo gatear relacionados con el tema de la página, un importante ahorro en los recursos de hardware y de red, páginas guardadas y también debido al pequeño número de actualización rápida, puede satisfacer una serie de áreas específicas para poblaciones específicas la demanda de información.

Simplemente significa que sólo un determinado tipo de datos rastreados en Internet.


Web de rastreadores incremental

Incremental rastreador web (Web de rastreadores incremental) se refiere a tomar sólo las actualizaciones incrementales y recién generado gatear reptiles o los cambios de página que han tenido lugar en las páginas descargadas, se puede asegurar que las páginas se arrastran hasta cierto punto, en la medida de lo posible, la nueva página.

Y rastreador web periódicamente rastreo y actualizar la página en comparación con los reptiles rastreo incremental de sólo producir nuevas páginas o actualización se produce, cuando sea necesario , no a la página volver a descargar no cambia, lo que puede reducir efectivamente la cantidad de descarga de datos, oportuna página de actualización ha sido arrastrándose, lo que reduce el costo de tiempo y espacio, pero aumenta la complejidad del algoritmo y la implementación dificultad de rastreo.

En pocas palabras, estamos sólo agarrar los datos actualizados en Internet.


Web de rastreadores de profundidad

Las páginas web pueden ser divididos a la existencia por la página Web de superficie (Surface Web) y profundo Web (Web profunda, también conocido como el invisible páginas web o Hidden Web).

páginas de superficie se refiere a la tradicional lata índice de los motores de búsqueda las páginas a las páginas estáticas hipervínculos puede llegar a la configuración de la página principal del Web.

Web profunda es que la mayor parte del contenido no se puede obtener mediante enlaces estáticos, ocultos en el cuadro de búsqueda, sólo que presente el usuario una página web para obtener en algunas palabras clave.

 

Publicados 434 artículos originales · ganado elogios 105 · Vistas a 70000 +

Supongo que te gusta

Origin blog.csdn.net/qq_39368007/article/details/105047654
Recomendado
Clasificación