Introducción a las herramientas básicas de rastreo en python

1. Introducir qué es un rastreador

Rastreador web: un programa que captura automáticamente información de Internet de acuerdo con ciertas reglas.

En términos sencillos:Un programa o (herramienta, método) que simula que el cliente envía una solicitud al servidor y obtiene datos por lotes

En segundo lugar, la clasificación de los reptiles.

1 pase de reptil

El rastreador web general es una parte importante del sistema de rastreo del motor de búsqueda (Baidu, Google, Sogou, etc.). El objetivo principal
es descargar las páginas web en Internet al local, formando una copia de seguridad espejo del contenido de Internet. Proporcionar soporte de búsqueda para los motores de búsqueda.

2 Centrarse en los reptiles

Para estas situaciones de rastreo de propósito general, se utilizan ampliamente técnicas de rastreo enfocado. El rastreador enfocado es un tipo de
programa de rastreador web "orientado a las necesidades de temas específicos". La diferencia entre este y los rastreadores generales de los motores de búsqueda es: el rastreador enfocado procesará y filtrará el contenido al implementar el rastreo web e intentará garantizar que solo el rastreo es relevante para las necesidades de los datos de la página web.

Tres herramientas para desarrolladores de Chrome

Chrome Developer Tools es un conjunto de herramientas de depuración y desarrollo web integradas en Google Chrome que se pueden usar para iterar, depurar y analizar sitios web. Debido a que muchos kernels de navegadores domésticos se basan en el kernel de Chrome, los navegadores domésticos también tienen esta función. Por ejemplo: navegador UC, navegador QQ, navegador 360, etc.

1 panel Elementos (Elementos)

A través del panel de elemento (Element), podemos ver la etiqueta donde queremos capturar el contenido renderizado de la página, qué atributo CSS usar
(por ejemplo: class="middle") y así sucesivamente. Por ejemplo, si quiero obtener el título dinámico en la página de inicio de My Zhihu, haga clic con el botón derecho en la página donde se encuentra y seleccione "Inspeccionar" para ingresar al panel de elementos de la herramienta para desarrolladores de Chrome.

2 Panel de consola (Consola)

El panel de la consola (Consola) es una ventana separada para mostrar información de objetos JS y DOM.

3 Panel de recursos (Fuente)

En la página del panel de recursos (Fuente), puede ver todos los archivos fuente de la página web actual.

4 Panel de red (Red)

El panel Red registra información sobre cada operación de red en la página, incluidos datos detallados que requieren mucho tiempo, encabezados de solicitud y respuesta HTTP y cookies, y más. Esto es lo que solemos llamar captura de paquetes.
###1 barra de herramientas
Detener la grabación del registro de red
De forma predeterminada, siempre que las herramientas para desarrolladores estén activadas, se registrarán todas las solicitudes de red. Por supuesto, los registros se muestran en el panel Red
. Rojo significa encendido, gris significa apagado.
Claro
Borre todos los datos, cada nuevo análisis necesita borrar los datos anteriores.
Filtrar
filtro de paquetes Rojo significa encendido, azul significa apagado.
A menudo se usa para filtrar algunas solicitudes HTTP, como filtrar solicitudes asíncronas iniciadas con Ajax, imágenes, videos, etc.
Filtrar cuadro de búsqueda
De acuerdo con el filtrado de direcciones, como baidu.com, solo se filtrarán los paquetes de datos que contengan baidu.com en la dirección del paquete de datos.
Invertir
En el cuadro de búsqueda Filtro, el filtrado inverso, como baidu.com, filtrará los paquetes cuya dirección no contenga baidu.com.
Ocultar URL de datos
Se usa para ocultar dataurl, entonces, ¿qué es dataurl? Tradicionalmente, el atributo src de la etiqueta img especifica un recurso de un servidor remoto, y el navegador necesita enviar una solicitud de extracción de recursos al servidor para cada recurso externo. La tecnología Data URL es que los datos de la imagen están incrustados en la página en formato de cadena base64 e integrados con HTML.
ha bloqueado las cookies
Mostrar solo solicitudes con cookies de respuesta bloqueadas, esta opción no debe estar marcada.
Solicitudes bloqueadas
Mostrar solo solicitudes bloqueadas, esta opción no debe estar marcada.
solicitudes de terceros
Mostrar solo solicitudes cuyo origen sea diferente al origen de la página, esta opción no debe estar marcada.
El panel más grande se llama Tabla de solicitudes, y esta tabla enumera todas las solicitudes HTTP recuperadas. De forma predeterminada, la tabla se ordena cronológicamente, con los recursos más antiguos en la parte superior. Al hacer clic en el nombre del recurso, se muestra más información.

2 Parámetros de la tabla de solicitudes:

todo: Todos los datos solicitados (imagen, video, audio, código js, ​​código css*)
XHR: La abreviatura de XMLHttpRequest, que es el núcleo de la tecnología ajax, un contenido que a menudo se analiza después de la carga dinámica.
CSS: archivo de estilo css
JS: archivo JavaScript, que es una página que a menudo se analiza mediante el descifrado js
imagen: Imágenes archivos de imagen
Fuente: archivo de fuente (fuente anti-picking)
DOC: Documento, contenido del documento
SW: WebSocket, comunicación de datos de socket en el lado web, generalmente utilizado para algunos datos actualizados en tiempo real
Manifiesto: muestra los recursos almacenados en caché a través del manifiesto. Incluir mucha información, como el archivo de la biblioteca js, mostrará la dirección, el tamaño y el tipo del archivo;

3 Otras barras de herramientas

Buscar
En el cuadro de búsqueda, siempre que el contenido que ha aparecido en TODOS, se puede buscar directamente. Uso común y recuperación de datos y descifrado JS
Conservar registro
Mantenga un registro. Al analizar el contenido que salta en varias páginas, se debe marcar, de lo contrario, cuando se produzca un nuevo salto en la página, se borrarán todos los datos históricos. Para mantener el registro, debe estar marcado para ser un rastreador
Desactivar el caché
Borre el caché de JavaScript, archivos css y obtenga los más recientes.

5 Detalles de las solicitudes:

1 encabezado de solicitud

Encabezados: Son los encabezados los que muestran la solicitud HTTP, a través de esto podemos ver el método de la solicitud y los parámetros de la solicitud que lleva.
Url de solicitud general
: la URL de la solicitud real
Método de solicitud: el método de solicitud
Código de estado: código de estado, 200 si es exitoso

2 encabezados de respuesta

Algunos datos se establecen cuando el servidor regresa, como los últimos datos de cookies actualizados por el servidor, que se modifican aquí.

3 encabezados de solicitudes

El cuerpo de la solicitud, la razón por la que no se pueden solicitar los datos, generalmente se encuentra aquí. Anti-pickup también son los datos en el cuerpo de solicitud de anti-pickup
Aceptar: El formato de datos recibido por el servidor (generalmente ignorado)
Aceptar-Codificación: La codificación recibida por el servidor (generalmente ignorada)
Aceptar-Idioma: El idioma recibido por el servidor (generalmente ignorado)
Conexión: mantenerse conectado (generalmente ignorado)
Galletas: La información de las cookies es información de identidad, y el rastreo de recursos VIP necesita llevar información de identidad
Anfitrión: la dirección de host solicitada
Agente de usuario: agente de identidad del usuario, el servidor juzga la información aproximada del usuario en función de esta
Sec-xxx-xxx: Otra información, puede ser inútil, puede ser contra-recogida. Análisis específico de la situación específica*

4 Vista previa

La vista previa es una vista previa del resultado de la solicitud. Generalmente se usa para ver las imágenes solicitadas y es más potente para capturar imágenes.

5 Respuesta

La respuesta es el resultado devuelto por la solicitud. El contenido general es el código fuente de todo el sitio web. Si la solicitud es una solicitud asíncrona, el
contenido del resultado devuelto generalmente son datos de texto Json.
Es posible que estos datos no coincidan con la página que muestra el navegador, porque el navegador se carga dinámicamente

6 iniciador

solicitud de pila de llamadas de origen

7 Tiempo

Línea de tiempo de solicitud y respuesta

Supongo que te gusta

Origin blog.csdn.net/m0_74459049/article/details/130189645
Recomendado
Clasificación