Python爬虫入门——1.1爬虫原理

1,先介绍一下网络连接的基本原理: (  加亮字体摘自百度百科)

        网络链接,即根据统一资源定位符(URL,uniform resource location),运用超文本标记语言(HTML,hyper text markup language),将网站内部网页之间、系统内部之间或不同系统之间的超文本和超媒体进行链接。通过此种链接技术,即可从一网站的网页连接到另一网站的网页,正是这样一种技术,才得以使世界上数以亿万计的计算机密切联系到了一起,从而构成网络的坚实基础。

网络链接是指从一个网页指向一个目标的连接关系,这个目标可以是另一个网页,也可以是相同网页上的不同位置,还可以是一个图片,一个电子邮件地址,一个文件,甚至是一个应用程序。而在一个网页中用来链接的对象,可以是一段文本或者是一个图片。当浏览者单击已经链接的文字或图片后,链接目标将显示在浏览器上,并且根据目标的类型来打开或运行。它是一种允许我们同其他网页或站点之间进行连接的元素,在本质上属于一个网页的一部分。各个网页链接在一起后,才能真正构成一个网站。互联网发展到今天,可以毫不夸张地说,没有网络链接就没有互联网,没有网络链接互联网就没有生命力,链接技术是互联网的坚实基础。

        简单来说就是一一对应,你请求什么,服务器就会给你返回什么。相当于,你去自动售货机买东西,你只需要选择你需要的商品,扫描付款码之后,售货机就会弹出相应的商品。你向服务器请求(request)什么,她们就会返回(response)什么。

2.爬虫原理

        爬虫就是爬虫程序模拟客户端向服务器发送请求;接收服务器返回的内容,进行解析、数据清洗、从而获得需要的信息。

网络就像一张巨大的蜘蛛网,爬虫就像一只蜘蛛,不停地在网上爬动,不断拾取自己需要的东西,爬虫的最终目的是对那些数据进行处理,例如你可以通过爬取淘宝商品销售记录,从而分析出,全国哪个省份女生的bra最大等问题。

3.爬虫工具

        爬虫一般需要安装谷歌的Chrome浏览器,并且使用BeautifuldSoup、requests等第三方库

猜你喜欢

转载自blog.csdn.net/lpp5406813053/article/details/83892497
今日推荐