Problemas de pared que suelen encontrar los rastreadores novatos

Mientras recopilemos más sitios web y sigamos recopilando por un período de tiempo, el administrador definitivamente se enterará de que pueden adoptar una serie de medidas para evitar nuestro proceso de recopilación. La principal característica es que el acceso ya no es posible, el acceso se interrumpe después de unas cuantas veces, y luego se accede manualmente, o después de cambiar de terminal, no hay ningún problema.

Ante esta situación, en primer lugar, debemos aclarar las siguientes cuestiones:

  1. ¿Mi rastreador visita con demasiada frecuencia, lo que supone una carga insoportable para el otro servidor y afecta el negocio del otro servidor?
  2. ¿Mi rastreador recopila información que la otra parte no divulga, lo que viola el mecanismo de defensa de la otra parte?
  3. ¿Hay algún error en mi rastreador que abrume a la otra parte?

En vista de los problemas anteriores, primero debemos aclarar nuestros propios límites morales y legales. ¿Hemos violado las leyes nacionales y dañado los intereses de otros? Estas cuestiones subjetivas son cuestiones de línea roja y deben tenerse en cuenta.

En segundo lugar, estoy pensando en mi problema con el rastreador. Si hay un error, el servidor de la otra parte se verá abrumado, por lo que debemos monitorear el sitio web de la otra parte para ver si afecta el negocio de la otra parte.

En base a lo anterior, después de completar el rastreador, surgirán algunos problemas y motivos que a menudo son bloqueados por administradores y firewalls. Permítanme resumir:

  1. El administrador no quiere que acceda. Hay dos tipos de esta situación: una es que cuando el administrador inicia sesión en segundo plano, un tipo me ha visitado 10.000 veces en 10 horas, lo que está muy por delante de los demás. Si fuera yo, la primera reacción sería cerrarlo, debe haber un problema, por lo que no hay necesidad de analizarlo. La otra es que siento que alguien está rastreando datos y quiero averiguarlo.
  2. La configuración del sitio web no le permite visitar. Esta es principalmente una restricción de un sitio web, como tomcat o Nginx, que restringe el tiempo de acceso de una determinada conexión, porque si esta conexión siempre está aquí, y luego entran nuevas conexiones continuamente, entonces el grupo de conexiones estará lleno tarde o temprano. y eventualmente terminará. Quieres DDOS Attack me, así puedo establecer cuánto tiempo no te mueves, y lo cortaré por ti.
  3. Configuración de firewall. Esto es difícil porque el cortafuegos se maneja muy bien. Si es un servidor WAF, es un dolor de cabeza. Cuando intercepta DDOS, es muy fácil bloquear los rastreadores. Si desea omitir WAF, es una intrusión. Si desea recopilar datos de la página, solo puede engañar a WAF y continuar actualizando la página de datos.

La forma de evitar las estrategias anteriores es principalmente engañar y fingir.

  1. Para evitar el reconocimiento de IP. Al adoptar o construir un proxy de IP, cambiar la dirección IP y reducir la activación de reglas por una sola IP, el bloqueo de IP malicioso es el método más comúnmente utilizado en el proceso de administración de sitios web.

  2. Cambie el contenido de la solicitud. Aunque su IP haya cambiado, este navegador o este registro de cookies también serán reconocidos. Sigo sin entender bien esta parte. Tengo que aprender más sobre el proceso de solicitud http y la función de las cookies. Esto se puede disfrazar cambiando las cookies y los encabezados.

  3. Reducir la frecuencia de visitas. Generalmente, si el número de visitas al sitio web por unidad de tiempo es demasiado alto, es fácil juzgarlo como un ataque CC, ejercerá mucha presión sobre el servidor y afectará el negocio normal. Esto se desvía de nuestra intención original. para la recopilación de datos, por lo que configurar un sueño () para reducir la frecuencia de actualización y reducir la ocupación de los recursos del servidor es un comportamiento que beneficia a los demás y a sí mismo.

  4. Discriminación de ataque lento. Date cuenta por primera vez, los lentos morirán. El ataque lento es http ataque lento es el uso del mecanismo legal http. Una vez establecida la conexión, mantén la conexión el mayor tiempo posible sin liberarla para llegar al ataque del servicio HTTP. El atacante envía una solicitud POST y crea un mensaje para enviar datos La longitud del mensaje se establece en un valor grande, y en cada transmisión subsiguiente, solo se envía un mensaje pequeño cada vez, lo que hace que el servidor espere datos y la conexión esté siempre ocupada. Si un atacante utiliza varios subprocesos o una máquina títere para realizar la misma operación, el contenedor WEB del servidor pronto se llenará con conexiones TCP y ya no aceptará nuevas solicitudes, lo que provocará un bloqueo del servidor y una falla del servicio. Es mejor utilizar la recopilación asincrónica de subprocesos múltiples, mientras se cierra la conexión anterior a tiempo y se controla el número.

    Aquellos que estén interesados ​​pueden ver esto: https://www.cnblogs.com/xiaoliu66007/p/10174672.html

En resumen, al recopilar datos, no se preocupe tanto por los administradores del sitio web. Debe pensar desde la perspectiva de los demás y obtener los datos de una manera que otros puedan aceptar. Solo otros pueden obtener los datos correctamente. Esto es un comportamiento de ganar-ganar. De lo contrario, sólo será una transición de la entrada a la prisión. No es fácil para todos darse de comer unos a otros.

Supongo que te gusta

Origin blog.csdn.net/u010472858/article/details/104293705
Recomendado
Clasificación