在爬取网站内容时,爬取的过程相当于浏览器的功能,所以要想准确的爬取网站内容,就必须先了解浏览器的工作原理:
关于浏览器:
其实就是一个解析工具,
我们在地址栏输入URL(即网址),浏览器会向DNS(域名服务器)提供网址,由它来完成URL到IP地址的映射。然后将请求你的请求提交给具体的服务器,
在由服务器返回我们要的结果(以HTML编码格式返回给浏览器),浏览器执行HTML编码,将结果显示在浏览器的正文
浏览器的作用:一句话概括,根据用户的请求显示相关的网页数据(用户和网页交互的工具)。
更为详细的解读
浏览器输入http://www.baidu.com;
- 1). 根据配置的DNS获取www.baidu.com对应的主机IP;
- 2). 根据端口号知道跟服务器的那个软件进行交互。
- 3). 百度的服务器接收客户端请求:
- 4). 给客户端主机一个响应(html内容) ----- html, css, js
- 5). 浏览器根据html内容解释执行, 展示出华丽的页面;