python-爬猫眼电影 - 代码天地

python-爬猫眼电影

其他 2020-02-15 14:36:01 阅读次数: 0

import requests
from lxml import etree
import re

#1. 定义请求的url
url = 'https://maoyan.com/news?showTab=3'
#2. 定义请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2'
}
#3. 发起请求
res = requests.get(url,headers=headers)
text = res.text #html标签内容信息
# print(text)

#4. 筛选数据
dom = etree.HTML(text)
#可以使用xpath，或者正则表达式
movie_urls = dom.xpath('//h4[@class="video-name one-line"]/a[@href]/@href')
movie_names = dom.xpath('//h4[@class="video-name one-line"]/a/text()')

for movie_url,movie_name in zip(movie_urls,movie_names):
    # print(movie_url,movie_name)
    movie_id_string  = requests.get(movie_url).text
    # print(movie_id_string)
    #通过正则表达式筛选，也可以使用xpath
    movie_mp4_url = re.search('source src="(.*)" type=',movie_id_string).group(1)
    print(movie_mp4_url)
    # #拿到二进制的数据格式
    movie = requests.get(movie_mp4_url,headers).content

    with open(f'./movie/{movie_name}.mp4','wb') as fp:
        fp.write(movie)

发布了42 篇原创文章 · 获赞 12 · 访问量 6107

私信关注

猜你喜欢

转载自blog.csdn.net/Alingyuzi/article/details/104248446

python-爬猫眼电影

python爬取猫眼电影

python爬取猫眼电影信息

Python爬虫爬取猫眼电影排行

python爬虫爬取猫眼电影数据

用python爬取猫眼电影排行

Python爬取猫眼电影案例

Python爬取猫眼电影排行

[Python爬虫]猫眼电影榜单爬取

python爬取猫眼电影数据

Python之爬取猫眼电影

爬取猫眼电影

猫眼电影爬取

python：猫眼电影TOP100的电影爬取

Python爬取猫眼电影排行TOP100的电影

Python爬取猫眼电影：破解字体反爬

python-对猫眼网的top100的爬取

python — 定时爬取猫眼电影排行榜

Python 爬取猫眼《邪不压正》电影评论

python爬取猫眼电影 top 100 保存到CSV

python3 爬虫学习之爬取猫眼电影

python爬虫爬取猫眼电影Top100

python学习(23)requests库爬取猫眼电影

python爬虫，爬取猫眼电影top100

python实战 scrapy爬取猫眼正在热映电影

python多线程秒爬猫眼电影Top100

python正则表达式爬取猫眼电影

python爬取猫眼电影top100

python应用-爬取猫眼电影top100

Python爬虫项目实战-爬取猫眼电影

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)