El proceso básico de solicitud http.
- Después de que el navegador obtiene la IP correspondiente al nombre de dominio, primero inicia una solicitud a la URL en la barra de direcciones y obtiene una respuesta.
- En el contenido de respuesta devuelto (html), habrá direcciones URL como css, js, imágenes y códigos ajax. El navegador envía otras solicitudes en secuencia de acuerdo con el orden en el contenido de la respuesta y obtiene la respuesta correspondiente.
- Cada vez que el navegador recibe una respuesta, agrega (carga) los resultados mostrados, js, css y otros contenidos modificarán el contenido de la página, y js también puede reenviar la solicitud para obtener la respuesta.
- Desde obtener la primera respuesta y mostrarla en el navegador, hasta finalmente obtener todas las respuestas y agregar contenido o modificar los resultados mostrados, este proceso se llama proceso del navegador.
渲染
Aviso:
Pero en el rastreador, el rastreador solo solicitará la dirección URL y obtendrá la respuesta correspondiente a la dirección URL (el contenido de la respuesta puede ser html, css, js, imágenes, etc.)
La página representada por el navegador a menudo es diferente de la página solicitada por el rastreador, porque el rastreador no tiene la capacidad de renderizar (por supuesto, se utilizarán otras herramientas o paquetes para ayudar al rastreador a representar el contenido de la respuesta en estudios posteriores).
- El resultado final que muestra el navegador es el resultado de múltiples respuestas correspondientes a múltiples solicitudes enviadas por múltiples direcciones URL.
- Por tanto, en el rastreador es necesario extraer datos en función de la respuesta correspondiente a una dirección URL que envía la solicitud.