[rastreador de Python] ¿Cuál es la IP del agente del rastreador que requiere el rastreador?

Tabla de contenido

Prefacio

1. ¿Qué es una IP proxy de rastreador?

2. Clasificación de IP proxy

1.Proxy transparente

2.Proxy anónimo

3. Agente muy oculto

3. Cómo obtener IP proxy

1. Sitio web proxy gratuito

2. Servicio de agencia pagado

4. Cómo utilizar la IP proxy

1. Utilice la biblioteca de solicitudes

2. Utilice la biblioteca scrapy

5. Precauciones para la IP proxy

1. La IP del proxy puede ser inestable

2. La IP del proxy puede tener problemas de seguridad

3. Puede haber restricciones en la IP del proxy

6. Ejemplo de aplicación de IP proxy

Resumir


Prefacio

Al desarrollar programas de rastreo, a menudo nos encontramos con sitios web cuyo acceso está restringido, en este caso necesitamos utilizar una IP proxy para acceder. Este artículo presentará el concepto y el uso de IP proxy para ayudar a los lectores a lidiar mejor con los problemas de restricción de acceso en los programas de rastreo. Al mismo tiempo, este artículo también proporcionará algunos proveedores de IP proxy y demostrará cómo utilizar IP proxy para acceder a sitios web restringidos a través de un ejemplo.

1. ¿Qué es una IP proxy de rastreador?

En el proceso de rastreo de datos, nos encontraremos con algunos sitios web que tienen restricciones para los rastreadores, como bloqueo de IP, límites de frecuencia de solicitud, etc. Estas limitaciones nos impedirán rastrear datos sin problemas, afectando así nuestro trabajo.

Para solucionar estas limitaciones, podemos utilizar IP de proxy de rastreador. La llamada IP del proxy del rastreador es la dirección IP en el servidor proxy. Podemos acceder al sitio web de destino a través del servidor proxy, ocultando así la dirección IP real y aumentando la frecuencia de las solicitudes.

2. Clasificación de IP proxy

Antes de utilizar la IP proxy, debemos comprender algunos conocimientos básicos de la IP proxy. La IP de proxy se puede dividir en los siguientes tres tipos:

1.Proxy transparente

El proxy transparente es el método de proxy más básico, no tiene protección para nuestra dirección IP real y no afectará nuestra frecuencia de solicitudes. Después de que la solicitud pasa a través del servidor proxy transparente, el sitio web de destino puede obtener directamente nuestra dirección IP real.

2.Proxy anónimo

Los servidores proxy anónimos ocultan nuestra dirección IP real, pero la frecuencia de las solicitudes aún está limitada por el sitio web de destino. Después de que la solicitud pasa a través del servidor proxy anónimo, el sitio web de destino solo puede obtener la dirección IP del servidor proxy y no puede obtener nuestra dirección IP real.

3. Agente muy oculto

El proxy de alto anonimato es el método de proxy más seguro: no solo oculta nuestra dirección IP real, sino que también disfraza el encabezado de la solicitud para que el sitio web de destino no pueda determinar si nuestra solicitud es una solicitud de proxy. Una vez que la solicitud pasa a través del servidor proxy de alta densidad, el sitio web de destino solo puede obtener la dirección IP del servidor proxy y no puede determinar si la solicitud es una solicitud de proxy.

3. Cómo obtener IP proxy

1. Sitio web proxy gratuito

Podemos obtener IP proxy a través de algunos sitios web proxy gratuitos. Estos sitios web proxy generalmente proporcionan una lista de IP proxy. Solo necesitamos seleccionar una IP proxy disponible de la lista y pasarla como parámetro a nuestro programa de rastreo.

Por ejemplo, podemos usar el siguiente código para obtener la lista de IP de proxy gratuito del sitio web de proxy https://www.zdaye.com/nn/:

import requests
from lxml import etree

url = 'https://www.zdaye.com/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
html = etree.HTML(response.text)
ips = html.xpath('//table[@id="ip_list"]/tr[position()>1]')
for ip in ips:
    ip_address = ip.xpath('./td[2]/text()')[0]
    ip_port = ip.xpath('./td[3]/text()')[0]
    print(ip_address + ':' + ip_port)
2. Servicio de agencia pagado

Además de los sitios web proxy gratuitos, también podemos obtener IP proxy de alta calidad a través de algunos servicios proxy pagos. Estos servicios de proxy pagos generalmente proporcionan algunas interfaces API y solo necesitamos llamar a la interfaz para obtener la IP del proxy.

Por ejemplo, podemos usar el siguiente código para obtener la IP del proxy del servicio de proxy pago https://www.zdaye.com/:

import requests

url = 'https://www.zdaye.com/'
response = requests.get(url)
ip_address = response.json()[0]['ip']
ip_port = response.json()[0]['port']
print(ip_address + ':' + ip_port)

4. Cómo utilizar la IP proxy

Después de obtener la IP del proxy, debemos aplicarla a nuestro programa de rastreo. A continuación, presentaremos dos formas comunes de utilizar IP proxy.

1. Utilice la biblioteca de solicitudes

Podemos configurar la IP del proxy usando el parámetro proxies de la biblioteca de solicitudes y pasarlo a la función request.get. Por ejemplo, podemos usar el siguiente código para configurar la IP del proxy:

import requests

url = 'https://www.baidu.com'
proxies = {'http': 'http://10.10.1.10:3128', 'https': 'http://10.10.1.10:1080'}
response = requests.get(url, proxies=proxies)
print(response.text)
2. Utilice la biblioteca scrapy

Podemos configurar la IP del proxy usando el parámetro Request.meta de la biblioteca scrapy y pasarlo a la función scrapy.Request. Por ejemplo, podemos usar el siguiente código para configurar la IP del proxy:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['https://www.baidu.com']

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, meta={'proxy': 'http://10.10.1.10:3128'})
            
    def parse(self, response):
        print(response.text)

5. Precauciones para la IP proxy

1. La IP del proxy puede ser inestable

Dado que la IP del proxy está conectada al servidor remoto a través de la red, puede haber inestabilidad en la red. En el proceso de uso de la IP del proxy, debemos prestar atención a monitorear si la IP del proxy funciona correctamente y, si ocurre algún problema, debemos reemplazar la IP del proxy a tiempo.

2. La IP del proxy puede tener problemas de seguridad

Dado que puede haber programas maliciosos en el servidor proxy, pueden existir ciertos riesgos de seguridad en el proceso de uso de la IP del proxy. En el proceso de utilizar IP proxy, debemos prestar atención a proteger la seguridad de nuestra computadora.

3. Puede haber restricciones en la IP del proxy

Algunas IP de proxy pueden limitar la frecuencia de las solicitudes, el contenido de la solicitud, etc. Debemos cumplir con las reglas de uso de las IP de proxy cuando utilizamos IP de proxy y no realizar solicitudes excesivas ni operaciones ilegales.

6. Ejemplo de aplicación de IP proxy

A continuación, tomamos el uso de IP proxy para acceder a los resultados de búsqueda de Baidu como ejemplo para demostrar la aplicación práctica de la IP proxy. Primero debemos obtener una IP de proxy disponible, luego usar la IP de proxy para acceder a los resultados de búsqueda de Baidu y, finalmente, guardar los resultados de la búsqueda en un archivo local.

import requests
from lxml import etree

# 获取代理 IP
url = 'https: 'https://www.zdaye.com/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
html = etree.HTML(response.text)
ips = html.xpath('//table[@id="ip_list"]/tr[position()>1]')
ip_address = ips[0].xpath('./td[2]/text()')[0]
ip_port = ips[0].xpath('./td[3]/text()')[0]
proxies = {'http': 'http://' + ip_address + ':' + ip_port, 'https': 'http://' + ip_address + ':' + ip_port}

# 使用代理 IP 访问百度搜索结果
keyword = 'Python 爬虫'
url = 'https://www.baidu.com/s?wd=' + keyword
response = requests.get(url, proxies=proxies)
html = etree.HTML(response.text)
search_results = html.xpath('//div[@id="content_left"]/div[@class="result"]')
for result in search_results:
    title = result.xpath('.//h3/a/text()')[0]
    link = result.xpath('.//h3/a/@href')[0]
    abstract = result.xpath('.//div[@class="c-abstract"]/text()')[0]
    print(title)
    print(link)
    print(abstract)

# 将搜索结果保存到本地文件中
filename = 'search_results.html'
with open(filename, 'w', encoding='utf-8') as f:
    f.write(response.text)

A través de la demostración del código anterior, podemos ver la importancia de la IP proxy en aplicaciones prácticas y cómo usar la IP proxy para acceder a sitios web restringidos.

Resumir

Este artículo presenta qué es la IP del proxy del rastreador, así como los métodos de clasificación y adquisición de la IP del proxy. Al mismo tiempo, este artículo también presenta cómo usar IP proxy en aplicaciones de rastreo y le recuerda las precauciones a las que se debe prestar atención al usar IP proxy. Finalmente, este artículo demuestra cómo utilizar IP proxy para acceder a sitios web restringidos a través de un ejemplo. A través de la introducción de este artículo, creo que los lectores pueden comprender mejor el concepto de IP proxy y dominar las habilidades de aplicación de IP proxy.

En términos generales, el rango de aplicación de IP proxy es muy amplio, especialmente en el campo de los rastreadores, el uso de IP proxy es indispensable. En el uso real, debemos elegir una IP de proxy confiable y usar la IP de proxy de manera razonable para garantizar que nuestro programa de rastreo pueda ejecutarse normalmente.

Supongo que te gusta

Origin blog.csdn.net/wq10_12/article/details/133132244
Recomendado
Clasificación