Python爬虫入门——1.1爬虫原理

1，先介绍一下网络连接的基本原理：（加亮字体摘自百度百科）

网络链接，即根据统一资源定位符（URL，uniform resource location），运用超文本标记语言（HTML，hyper text markup language），将网站内部网页之间、系统内部之间或不同系统之间的超文本和超媒体进行链接。通过此种链接技术，即可从一网站的网页连接到另一网站的网页，正是这样一种技术，才得以使世界上数以亿万计的计算机密切联系到了一起，从而构成网络的坚实基础。

网络链接是指从一个网页指向一个目标的连接关系，这个目标可以是另一个网页，也可以是相同网页上的不同位置，还可以是一个图片，一个电子邮件地址，一个文件，甚至是一个应用程序。而在一个网页中用来链接的对象，可以是一段文本或者是一个图片。当浏览者单击已经链接的文字或图片后，链接目标将显示在浏览器上，并且根据目标的类型来打开或运行。它是一种允许我们同其他网页或站点之间进行连接的元素，在本质上属于一个网页的一部分。各个网页链接在一起后，才能真正构成一个网站。互联网发展到今天，可以毫不夸张地说，没有网络链接就没有互联网，没有网络链接互联网就没有生命力，链接技术是互联网的坚实基础。

简单来说就是一一对应，你请求什么，服务器就会给你返回什么。相当于，你去自动售货机买东西，你只需要选择你需要的商品，扫描付款码之后，售货机就会弹出相应的商品。你向服务器请求（request）什么，她们就会返回（response）什么。

2.爬虫原理

爬虫就是爬虫程序模拟客户端向服务器发送请求；接收服务器返回的内容，进行解析、数据清洗、从而获得需要的信息。

网络就像一张巨大的蜘蛛网，爬虫就像一只蜘蛛，不停地在网上爬动，不断拾取自己需要的东西，爬虫的最终目的是对那些数据进行处理，例如你可以通过爬取淘宝商品销售记录，从而分析出，全国哪个省份女生的bra最大等问题。

3.爬虫工具

爬虫一般需要安装谷歌的Chrome浏览器，并且使用BeautifuldSoup、requests等第三方库

Python爬虫入门——1.1爬虫原理

猜你喜欢