8:28李丹丹作业

其他 2019-08-29 21:58:07 阅读次数: 0

爬取豆瓣电影top250：

import requests
import re

'''
第一页：
https://movie.douban.com/top250?start=0&filter=
第二页：
https://movie.douban.com/top250?start=25&filter=
第三页：
https://movie.douban.com/top250?start=50&filter=
第十页：
https://movie.douban.com/top250?start=225&filter=
'''

0获取所有电影的URL

num=0
for line in range(10):
url=f'https://movie.douban.com/top250?start={num}&filter='
num+=25
#print(url)

# 1.发送请求
response=requests.get(
    url=url
)

# 获取响应文本
#print(response.text)

'''
1.电影名称
2.电影详情页链接
3.电影评分
4.电影评价人数
'''
# 2.解析并提取数据
# 查找所有
# re.S: 全局查找
# re.findall('正则匹配规则', '解析文本', re.S)
# 获取所有电影的名称
# movie_name = re.findall('<div class="item">.*?<span class="title">(.*?)</span>', response.text, re.S)

# 获取电影的名称与详情页地址
# movie_name = re.findall('<div class="item">.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>', response.text, re.S)

movie_list = re.findall('<div class="item">.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?<span class="rating_num" property="v:average">(.*?)</span>.*?<span>(.*?)人评价</span>',
    response.text, re.S)
#movie_list = re.findall('<div class="item">.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?<span class="rating_num" property="v:average">(.*?)</span>.*?<span>(.*?)人评价</span>',response.text, re.S)
#print(movie_list)
# 循环
num = 1
with open('douban.txt', 'a', encoding='utf-8') as f:
    for line in movie_list:
        movie_url = line[0]
        movie_name = line[1]
        movie_point = line[2]
        movie_count = line[3]
        f.write(movie_url + '---' + movie_name + '---' + movie_point + '---' + movie_count + '\n')
        #print(movie_url + '---' + movie_name + '---' + movie_point + '---' + movie_count + '\n')

猜你喜欢

转载自www.cnblogs.com/lidandanaa/p/11432193.html

8:28李丹丹作业

8.22 李丹丹作业

8.27 李丹丹作业

8月28日作业

作业28

day28作业

python 28 作业

每日作业5/28

2/28作业

8月28日

1.2017-8-28

2018-8-28

shell：8-28

28.web8

2020/8/28

noip第28课作业

2019-2-28作业

Day28作业及默写

python第28天作业

作业8

8月28日总结

吐槽-19/8/28

作业（2018-04-28，周六）

Python习题——2018-03-28作业

千峰JAVA第28天作业

c++作业-8

python作业（8）

第8次作业

6-8作业

day8作业

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)