Python爬虫1:爬虫原理、网页构造与第一个爬虫程序

Python爬虫1:爬虫原理、网页构造与第一个爬虫程序

本部分介绍15篇爬虫及文本分析的相关文章,基本上学完就可以处理部分爬虫和文本。
第一讲有三个内容,包括1 爬虫原理、2 网页构造、3 第一个爬虫程序。

1.爬虫原理
(1)网络连接
网络连接像是在自助饮料售货机上购买饮料一样:购买者只需选择所需饮料,投入硬币(或纸币),自助饮料售货机就会弹出相应的商品。网络连接也正是如此,如下图所示,本机电脑(购买者)带着请求头和消息体(硬币和所需饮料)向服务器(自助饮料售货机)发起一次Requests请求(购买),相应的服务器(自助饮料售货机)会返回本机电脑相应的HTML文件作为Response(相应的商品)。
在这里插入图片描述
(2)爬虫流程
了解网络连接的基本原理后,爬虫原理就很好理解了。网络连接需要电脑一次Requests请求和服务器端的Response回应。爬虫也是需要二件事:
(1)模拟电脑对服务器发起Requests请求。
(2)接收服务器端的Response的内容并解析提取所需信息。
但互联网网页错综复杂,一次的请求和回应不能够批量获取网页的数据,这时就需要设计爬虫的流程,主要运用到两种爬虫所需的流程:多页面和跨页面爬虫流程。(示意图如下)
在</div></body></html>

猜你喜欢

转载自blog.csdn.net/wjyxld/article/details/105277706