python爬虫爬取豆瓣电影信息 - 代码天地

python爬虫爬取豆瓣电影信息

编程语言 2019-04-24 02:53:35 阅读次数: 0

我们准备使用python的requests和lxml库，直接安装完之后开始操作

目标爬取肖申克救赎信息->传送门

导入库

import requests
from lxml import etree

给出链接

url=‘https://movie.douban.com/subject/1292052/?tag=%E7%BB%8F%E5%85%B8&from=gaia_video’

获取网页html前端代码一行搞定，在requests中已经封装好了

data = requests.get(url).text

lxml库中封装了解析下载页面数据的函数

s = etree.HTML(data)

然后我们到豆瓣中获取需要爬取数据的xpath
在这里插入图片描述
右键->copy->xpath我们就拿到了这样的一串数据

//*[@id="content"]/h1/span[1]

然后我们获取数据内容

film = s.xpath('//*[@id="content"]/h1/span[1]/text()')

注意最后面的/text()是获取文本类型的数据不然会出错
最后直接print(film)即可

完整代码如下

import requests
from lxml import etree
url = 'https://movie.douban.com/subject/1292052/?tag=%E7%BB%8F%E5%85%B8&from=gaia_video'    # 定义url
data = requests.get(url).text   # 获取全部html
s = etree.HTML(data)

film = s.xpath('//*[@id="content"]/h1/span[1]/text()')
print(film)

进阶

接下来我们想爬取主演
在演员上右键copy -> copy xpath
我们会有这样一串xpath

//*[@id="info"]/span[3]/span[2]/span[1]/a
//*[@id="info"]/span[3]/span[2]/span[2]/a
//*[@id="info"]/span[3]/span[2]/span[3]/a
……

我们发现这一组xpath似乎是封装在一个大的span标签之中，所以我们直接取拿span[2]里面的a/text()

actor = s.xpath('//*[@id="info"]/span[3]/span[2]/a/text()')

我们获得了以下的运行结果，直接可以获取列表中的全部标签
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_42730789/article/details/89481129

python爬虫，爬取豆瓣电影信息

python爬虫爬取豆瓣电影信息

Python爬虫入门 | 2 爬取豆瓣电影信息

python3爬虫 —— 爬取豆瓣电影信息

Python爬虫入门 | 爬取豆瓣电影信息

python爬虫——爬取豆瓣top250电影信息

简单爬虫爬取豆瓣电影信息

爬虫爬取豆瓣高分电影信息

python爬虫实践——爬取豆瓣电影

Python爬虫--爬取豆瓣电影

爬虫实践--豆瓣电影当前上映电影信息爬取

python爬虫（一）爬取豆瓣电影排名前50名电影的信息

爬取豆瓣电影信息

爬虫实战：爬取豆瓣TOP250电影信息

【爬虫】爬取豆瓣Top250电影信息

零基础爬虫----python爬取豆瓣电影top250的信息

零基础爬虫----python爬取豆瓣电影top250的信息（转）

python爬虫Day2：爬取豆瓣电影信息top250

python爬虫(九、爬取豆瓣top250电影信息并插入数据库sqlite)

python scrapy爬虫练习(1) 爬取豆瓣电影top250信息

Python爬虫新手入门教学（一）：爬取豆瓣电影排行信息

Python爬虫：爬取网站电影信息

python爬虫实现爬取电影信息

Python爬取豆瓣电影

Python爬虫之爬取豆瓣电影（一）

Python爬虫之爬取豆瓣电影（二）

Python爬虫实战：Scrapy豆瓣电影爬取

（十七）Python爬虫：爬取豆瓣电影TOP250

Python网络爬虫学习之爬取豆瓣电影（四）

python爬虫--爬取豆瓣top250电影名

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

VS2017编译opensmile具体过程和遇到的问题

PowerEnglish——mini-story3总结

微信小程序数据库获取字符串在view中显示换行

Java静态代码块/构造代码块/构造函数/静态变量/成员变量(相关示例)

Keras使用tensorflowjs部署demo

window下用git连接Github

图象的全变分和去噪

LeetCode刷题笔记--119. Pascal's Triangle II

【Linux】进程间通信 - 管道

polyA|ribo-minus|differentiated cell|Genetic heterogeneity

每日归档

更多

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)

2024-04-08(60)