版权声明:禁止转载至其它平台,转载至博客需带上此文链接。 https://blog.csdn.net/qq_41841569/article/details/88819795
我们进入豆瓣电影排名首页后可以看到它的url为:
https://movie.douban.com/top250?
当然在学习Python的道路上肯定会困难,没有好的学习资料,怎么去学习呢? 学习Python中有不明白推荐加入交流群号:683380553 群里有志同道合的小伙伴,互帮互助, 群里有不错的视频学习教程和PDF!
翻一页进入第二页后可以看到url变成了:
https://movie.douban.com/top250?start=25&filter=
那么我们就得到一个规律了,第一页url的start参数为0,第二页为25,同理第三页为50。
总共有10页,那么我们可以构建一个变动的url。
for page in range(0, 11):
url = 'https://movie.douban.com/top250?start={}&filter='.format(page*25)
对于采集电影的名字,我们可以打开网站的源代码,从中用正则提取出来。
res = re.compile(r’<img width=“100” alt="(.*?)" src="’)
全部源代码为:
显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果:显示结果: