python3爬虫学习之lxml与xpath实战爬取豆瓣热映 - 代码天地

python3爬虫学习之lxml与xpath实战爬取豆瓣热映

其他 2019-04-10 21:31:04 阅读次数: 0

做个爬取最近豆瓣热映电影的爬虫，巩固所学，用lxml解析和xpath提取规则

from lxml import etree
import requests

headers = {
    "User-Agent" : "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) "
                   "AppleWebKit/537.36 "
                   "(KHTML, like Gecko) Chrome/72.0.3626.121 Mobile Safari/537.36",
    "Referer" : "https://movie.douban.com/cinema/nowplaying/zhumadian/"
}
url = "https://movie.douban.com/cinema/nowplaying/zhumadian/"
# 1 抓取豆瓣热映网页
def get_file():
    response = requests.get(url , headers=headers)
    text = response.text
    return text

# 2 处理抓取页面，获取需要信息
def p_file(text):
    html = etree.HTML(text)
    ul = html.xpath("//ul[@class='lists']")[0]
    lis = ul.xpath("./li")
    movies =[]
    for li in lis:
        title = li.xpath("@data-title")
        score = li.xpath("@data-score")
        region = li.xpath("@data-region")
        director = li.xpath("@data-director")
        actors = li.xpath("@data-actors")

        movie ={
            "电影" : title,
            "评分" : score,
            "产地" : region,
            "导演" : director,
            "演员" : actors
        }

        movies.append(movie)

    for movie in movies:
        print(movie)

if __name__ == '__main__':
    text = get_file()
    p_file(text)

下面是运行结果

多分析网页，代码条理还算清晰，一起交流学习，不断优化

猜你喜欢

转载自blog.csdn.net/s_kangkang_A/article/details/89006165

python3爬虫学习之lxml与xpath实战爬取豆瓣热映

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块的学习

使用python3 爬取豆瓣电影热映和即将上映

python3爬虫系列12之lxml+xpath和BeautifulSoup+css selector不同方式tiobe网站爬取

爬取豆瓣热映电影

爬取豆瓣的正在热映电影

python3爬虫学习之数据提取之lxml与xpath

python3爬虫 —— 爬取豆瓣电影信息

Python爬虫爬取猫眼电影热映口碑榜

python3 + Scrapy爬虫学习之腾讯实战爬取

python3爬虫学习之urllib库实战爬取网站

python实战 scrapy爬取猫眼正在热映电影

python3 爬虫学习之爬取猫眼电影

python3使用XPath爬取豆瓣电影Top 250

[python爬虫之路day4]：xpath基本知识&&lxml结合xpath进行数据分析&&爬取豆瓣电影

python3网络爬虫开发实战学习笔记(二)------python3 XPATH爬猫眼电影排名

Python爬虫-爬取豆瓣信息(selenium+xpath)

Python网络爬虫学习之爬取豆瓣电影（四）

爬虫学习之6：使用XPATH爬取豆瓣TOP500书籍(保存到CSV)

python3爬虫之lxml的xpath二次匹配遇到的问题

request+lxml+xpath爬取豆瓣电影

Python3 爬虫实战（并发爬取）

2019-11-11 爬网页3-爬取豆瓣电影信息保存到csv(python2.7，静态页面。requests/bs4/lxml/xpath）

python3 爬虫实战之爬取网易新闻APP端

python3之lxml、css和xpath

python3爬虫--爬取豆瓣Top250的图书

python学习笔记分享(三十六)网络爬虫(4)selenium实战之爬取豆瓣流浪地球影评

python3爬虫实践(正则+xpath 站长素材免费简历模板爬取)

简单Python爬虫实例：抓取豆瓣热映电影信息

python爬虫——爬取淘票票正在热映电影

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)