Rastreador de Python: uso correcto de IP proxy

        Contenido principal: Principios del uso de proxy ip, cómo configurar proxy ip en su propio rastreador, cómo saber si proxy ip es válido, si no es válido, dónde está el problema, proxy ip para uso personal (pago).

Tabla de contenido

Principio de ip proxy

¿Qué sucede después de ingresar la URL?

¿Qué hizo la ip del proxy?

¿Por qué usar un proxy?

La IP del proxy se usa en el código del rastreador

Obteniendo la ip del proxy

Compruebe si la ip del proxy es válida

Solución de problemas que no han tenido efecto

1. El protocolo de solicitud no coincide

2. Fallo de proxy


Principio de ip proxy

¿Qué sucede después de ingresar la URL?

1. El navegador obtiene el nombre de dominio

2. Obtener la dirección IP del servidor correspondiente al nombre de dominio a través del protocolo DNS

3. El navegador y el servidor correspondiente establecen una conexión TCP a través de un protocolo de enlace de tres vías

4. El navegador envía una solicitud de datos al servidor a través del protocolo HTTP

5. El servidor devuelve el resultado de la consulta al navegador.

6. Agite cuatro veces para liberar la conexión TCP

7. Resultado de la representación del navegador

El cual involucra:

Capa de aplicación: HTTP y DNS

Capa de transporte: TCP UDP

Capa de red: IP ICMP ARP

¿Qué hizo la ip del proxy?

En términos simples, es:

Originalmente su visita

Su visita después de usar un proxy

¿Por qué usar un proxy?

        Debido a que a menudo nos encontramos con este tipo de situaciones en el proceso de creación de reptiles. Inicialmente, el rastreador funciona normalmente y toma datos normalmente. Todo se ve tan hermoso. Sin embargo, pueden ocurrir errores después de una taza de té, como 403 Prohibido. Cuando abre la página web y eche un vistazo, es posible que vea un mensaje como "Su frecuencia de acceso IP es demasiado alta". La razón de este fenómeno es que el sitio web ha tomado algunas medidas contra el rastreo. Por ejemplo, el servidor detectará el número de solicitudes de una determinada IP dentro de una unidad de tiempo, si supera este umbral, rechazará directamente el servicio y devolverá algunos mensajes de error, esta situación se puede denominar bloqueo de IP. La IP del proxy evita este problema:

La IP del proxy se usa en el código del rastreador

Al igual que enmascarar el encabezado al solicitar, enmascarar ip, preste atención a { ​​}

proxies = {
           'https':'117.29.228.43:64257',
           'http':'117.29.228.43:64257'
       }

requests.get(url, headers=head, proxies=proxies, timeout=3) #proxies

Obteniendo la ip del proxy

        Al igual que los proxies que acabamos de almacenar en proxies , se pueden usar directamente como parámetros en las solicitudes. Ahora vamos a hacer los proxies

        Primero abra un proveedor de IP proxy, elijo IPIDEA aquí (el canal siempre se considera un anuncio, el enlace se coloca debajo, recuerdo que hay una prueba gratuita para el registro de nuevos usuarios), generalmente usamos la API para obtener, eso Es decir, la interfaz obtiene directamente la ip que necesitamos, el proveedor nos devuelve la información de ip que nos ha proporcionado:

 Puedes ajustarlo según tus necesidades:

        Aquí hago clic en la URL para usar la API para demostrar, y se generará un enlace de URL. Solicitamos este enlace directamente para obtener la información detallada de la IP del proxy.

# 拿到供应商给我们的代理IP
URL = "https://www.ipidea.net/?utm-source=csdnhao&utm-keyword=%3Fcsdnhao"

# 这里参数控制了数量 格式 和ip协议等等 这也算是它的一个优势吧,多的话可以提取几百,而且可以指定城市从固定地点提取ip,更符合爬虫模拟人类的行为特征。
url = "http://api.proxy.ipidea.io/getProxyIp?num=1&return_type=txt&lb=1&sb=0&flow=1&regions=&protocol=http"

# 输出ip
res = requests.get(url)
print(res.text)
# 这个ip就可以放在我们实际要请求的网页requests中了

Compruebe si la ip del proxy es válida

Visitamos un sitio web que devuelve nuestra dirección IP:

print(requests.get('http://httpbin.org/ip', proxies=proxies, timeout=3).text)

        El punto clave es que uso la IP del proxy para acceder. Si la IP devuelta no es mi IP, significa que la IP del proxy está disponible, se puede disfrazar y también puede ayudarnos a recuperar la información que queremos.

Echemos un vistazo a los cuatro ips de proxy diferentes que utilicé, todos los cuales están en efecto,

Solución de problemas que no han tenido efecto

Si aún devuelve la dirección local, el 99 % prueba una de estas dos cosas:

1. El protocolo de solicitud no coincide

En pocas palabras, si solicita http, debe usar el protocolo http, y si es https, debe usar el protocolo https.

Si mi solicitud es http, pero solo https, se usará la ip local.

        El punto clave es que el agente que obtuvimos soporta ambos, pero si tienes que configurarlo como yo, es como comprar un pájaro, si no le das espacio para volar, por supuesto que no podrá volar. Esto nos pertenece a nosotros pregunta.

2. Fallo de proxy

        Este no es nuestro problema. Lo llamado barato no es bueno, y lo bueno no es barato. Si los reptiles a gran escala son realmente necesarios, es mejor comprar IP de proxy. Algunos proxies con anuncios en línea tienen una rentabilidad real un poco baja. Ya he compartido los que uso con frecuencia, y no los recomiendo demasiado. si no los conozco.

        Por supuesto, si eres un hobby, también puedes encontrar algunos agentes libres en Internet para jugar, pero el efecto realmente no es muy bueno. . . . .

Supongo que te gusta

Origin blog.csdn.net/qq_52213943/article/details/124424365
Recomendado
Clasificación