request+lxml+xpath爬取豆瓣电影 - 代码天地

request+lxml+xpath爬取豆瓣电影

其他 2019-10-21 16:50:49 阅读次数: 0

（1）lxml解析html

from lxml import etree
#创建一个html对象
html=stree.HTML(text)
result=etree.tostring(html,encoding="utf-8").decode("utf-8")

requests+lxml+xpath实现豆瓣电影爬虫

import requests
from lxml import etree

headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
}

原始界面：

url="https://movie.douban.com/cinema/nowplaying/wuhan/"
response=request.get(url,headers=headers)
text=response.text
html=etree.HTML(text)

我们会得到一个html对象

转换成字符串看下结果

result=etree.tostring(html,encoding="utf-8").decode("utf-8")

部分结果如下：

然后进行xpath解析：

我们对准其中一部电影点击鼠标右键--检查，得到如下视图：

我们发现，上映电影的信息都在带有属性lists的ul中，我们可以对此进行xpath解析，（我们解析的是html对象，而不是转成字符串的结果）：

uls=html.xpath("//ul[@class='lists']")[0]

我们在转成字符串查看一下结果：

res=etree.tostring(uls,encoding="utf-8").decode("utf-8")
print(res)

正是我们想要的，我们接着解析里面的内容：

首先获取所有的li：

#这句的意思是获取当前uls下的所有直接li
lis=uls.xpath("./li)

结果是一系列的li对象：

我们再分别进行解析：

movies=[]
for li in lis:
    name=li.xpath("@data-title")[0]
    score=li.xpath("@data-score")[0]
    country=li.xpath("@data-region")[0]
    director=li.xpath("@data-director")[0]
    actors=li.xpath("@data-actors")[0]
    category=li.xpath("@data-category")[0]
    movie={
        "name":name,
        "score":score,
        "country":country,
        "director":director,
        "actors":actors,
        "category":category
    }
    movies.append(movie)
print(movies)

部分结果如下：

在json中格式化结果如下：

至此，一个初步的爬虫就完成了。

猜你喜欢

转载自www.cnblogs.com/xiximayou/p/11714360.html

request+lxml+xpath爬取豆瓣电影

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块的学习

爬取豆瓣电影数据（requests，基于lxml的BeautifulSoup，json）

requests+lxml+xpath爬取电影天堂

[python爬虫之路day4]：xpath基本知识&&lxml结合xpath进行数据分析&&爬取豆瓣电影

2019-11-11 爬网页3-爬取豆瓣电影信息保存到csv(python2.7，静态页面。requests/bs4/lxml/xpath）

xpath_爬取豆瓣电影TOP250

requests结合xpath爬取豆瓣最新上映电影

爬取豆瓣电影

豆瓣电影爬取

python从入门到放弃篇26(lxml.etree库，urllib.request库，构造xpath路径，构造url）实现翻页爬取豆瓣书简介并保存数据

python3爬虫学习之lxml与xpath实战爬取豆瓣热映

python中lxml+cssselect爬取豆瓣电影Top250

爬取豆瓣电影信息

scrapy爬取豆瓣电影

Python爬取豆瓣电影

爬取豆瓣高分电影

爬取豆瓣电影代码

爬取豆瓣电影的评论

python爬虫--用xpath爬豆瓣电影

xpath；；利用xpath爬取电影天堂

爬虫]利用xpath爬取豆瓣电影top250（转）

使用Requests和Xpath简单爬取并输出豆瓣电影（济南）代码。

xpath爬取豆瓣电影Top250写入csv文件

python3使用XPath爬取豆瓣电影Top 250

Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析

request+正则表达式，爬取豆瓣电影top100

到豆瓣爬取电影信息

python 爬取豆瓣电影案例

scrapy爬取豆瓣电影信息

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)