零基础入门python爬虫,采集豆瓣网电影排名top250!

版权声明:禁止转载至其它平台,转载至博客需带上此文链接。 https://blog.csdn.net/qq_41841569/article/details/88819795

image

我们进入豆瓣电影排名首页后可以看到它的url为:

https://movie.douban.com/top250?

当然在学习Python的道路上肯定会困难,没有好的学习资料,怎么去学习呢?  学习Python中有不明白推荐加入交流群号:683380553  群里有志同道合的小伙伴,互帮互助,  群里有不错的视频学习教程和PDF!

image

翻一页进入第二页后可以看到url变成了:

https://movie.douban.com/top250?start=25&filter=

image

那么我们就得到一个规律了,第一页url的start参数为0,第二页为25,同理第三页为50。

总共有10页,那么我们可以构建一个变动的url。

for page in range(0, 11):
  url = 'https://movie.douban.com/top250?start={}&filter='.format(page*25)

对于采集电影的名字,我们可以打开网站的源代码,从中用正则提取出来。

res = re.compile(r’<img width=“100” alt="(.*?)" src="’)

全部源代码为:
image.png

显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:

image

猜你喜欢

转载自blog.csdn.net/qq_41841569/article/details/88819795