1.4 代理的基本原理

1、为什么要使用代理

网站一般都采取了一些反爬虫措施,例如当服务器检测到某个IP单位时间内请求次数超过服务器设定的阈值时,就直接拒绝提供服务,或者返回一些错误信息,可以称这种情况为封IP。使用代理便可以有效地解决这一问题。

2、代理的基本原理

代理实际上就是指代理服务器(Proxy Server),功能是代网络用户取得网络信息。当客户端正常请求一个网站时,是把请求直接发送给Web服务器,Web服务器再把响应直接传回给客户端。而代理服务器就相当于在客户端与Web服务器之间搭建了一座桥梁,客户端发出的请求被代理服务器接收,再由代理服务器发送给Web服务器,Web服务器做出的响应也是通过代理服务器返回到客户端。这样Web服务器识别出的IP就不是客户端的IP了,从而实现了IP的伪装。这就是代理的基本原理。图解如下。

在这里插入图片描述

3、代理的作用

  • 隐藏请求源IP地址。使用代理可以隐藏爬虫的真实IP地址,从而减少被网站封禁等风险。
  • 提高爬取速度。通过使用代理服务器,爬虫可以同时向多个目标服务器发送请求,从而提高爬取效率。
  • 解决访问限制。有些网站可能对于某些地区的 IP 或者某些类型的用户进行了限制,使用代理可以解决这一问题‘

4、代理分类

根据协议区分

  • FTP代理服务器:主要用于访问FTP服务器,一般有上传、下载、缓存功能,端口一般为21、2121等。
  • HTTP代理服务器:主要用于访问网页,一般有内容过滤和缓存功能,端口一般为80、8080、3128等。
  • SSL/TLS代理:主要用于访问加密网站,一般有SSL或TLS加密功能,端口一般为443。
  • RTSP代理:主要用于Realplayer访问Real流媒体服务器,一般有缓存功能,端口一般为554。
  • Telnet代理:主要用于Telnet远程控制(黑客入侵计算机时常用于隐藏身份),端口一般为23。
  • POP3/SMTP代理:主要用于以POP3/SMTP方式收发邮件,一般有缓存功能,端口一般为110/25。
  • SOCKS代理:只是单纯传递数据包,不关心具体协议和用法,因此速度较快,一般有缓存功能,端口一般为1080。

根据匿名程度区分

  • 高度匿名代理:高度匿名代理会将数据包原封不动地转发,在服务端看来是一个普通的客户端在访问,记录的IP则是代理服务器的IP。
  • 普通匿名代理:普通匿名代理会将数据包做一些改动,服务端可能会发现访问者是一个代理服务器。
  • 透明代理:透明代理不但会改变数据包,还会将客户端的真实IP告诉服务器。
  • 间谍代理:间谍代理是由组织或个人创建的代理服务器,用于记录用户传输的数据,然后对记录的数据进行研究、监控等。

猜你喜欢

转载自blog.csdn.net/weixin_75094128/article/details/131418737
1.4