Python爬虫入门:如果这篇文章还不能让你理解爬虫,我也无能为力

Python爬虫入门:如果这篇文章还不能让你理解爬虫,我也无能为力

看到这两只爬虫没有?

两只爬虫

两只爬虫

跑得快

跑得快

一只没有..

进QQ群:700341555获取Python爬虫入门学习资料!

Python爬虫入门:如果这篇文章还不能让你理解爬虫,我也无能为力

不好意思

跑题了...

别误会,今天不是要教你怎么玩上面这两只沙雕玩意。

今天,我们正式从0到1

轻松学会 python 爬虫

接下来...

将是学习Python的正确姿势!

小帅b闪亮登场

Python爬虫入门:如果这篇文章还不能让你理解爬虫,我也无能为力

在你的浏览器里面

输入百度网址

https://www.baidu.com

一回车看到一个网页

Python爬虫入门:如果这篇文章还不能让你理解爬虫,我也无能为力

大家都很熟悉吧!

然而

你右键,查看网页源代码。

是这个样子的

Python爬虫入门:如果这篇文章还不能让你理解爬虫,我也无能为力

(源代码的1/100)

“窝里割草”

简简单单一个页面。

这么多密密麻麻的代码

不说了

劝退前端程序员!

还是学习 Python 吧。哈哈哈

Python爬虫入门:如果这篇文章还不能让你理解爬虫,我也无能为力

那么说这个,和爬虫有什么关系呢?

你有没有想过

这些许许多多的网站

背后都是一些数据

如果我们可以用一个自动化的程序

轻轻松松就能把它们给爬取下来

是不是很爽?

比如,一些小电影的网站

我们只要用 Python

写几行代码

然后一运行

这个程序就帮我们爬取所有的小电影到我们本地

完全不需要我们费一点力气

再比如,你想了解一个行业的趋势

是不是可以把它们往年的数据都爬取下来

然后,对这些数据做一些分析呢?

等等..

这些,以后我们都会讲到!

我们刚刚提到的

一个自动化的程序

就是爬虫

Python爬虫入门:如果这篇文章还不能让你理解爬虫,我也无能为力

知道了什么是爬虫之后

问题来了

爬虫怎么玩的?

那就偷偷告诉你

Python爬虫入门:如果这篇文章还不能让你理解爬虫,我也无能为力

在互联网上许许多多的网站

它们都是托管在服务器上的

这些服务器 24 小时运行着

时时刻刻,兢兢业业的等待着别人的请求

所以

我们的爬虫,首先会模拟请求

就好像你在浏览器输入网址,然后回车那样

爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以假装自己是浏览器(添加一些header信息)

大多数的服务器呢,傻不拉的以为是浏览器发送请求

就直接返回数据给爬虫了

Python爬虫入门:如果这篇文章还不能让你理解爬虫,我也无能为力

当然了,有一些网站比较精明

所以他们会建立一些反爬虫机制

但是,对于我们来说,不在话下

这个是后话了!

反正这个时候呢,服务器把数据返回给我们了

那么我们就可以对这些数据进行猥琐操作了。

Python爬虫入门:如果这篇文章还不能让你理解爬虫,我也无能为力

不同的情况下,服务器返回给我们的数据格式不一样

HTML

JSON

二进制的数据啦

根据不同的情况,我们可以使用不同的方式对他们进行处理。

处理完之后

我们就可以对他们进行保存啦

保存的方式也有几种

数据库

硬盘

等等..

猜你喜欢

转载自blog.csdn.net/weixin_44138053/article/details/86539207