使用Requests和Xpath简单爬取并输出豆瓣电影（济南）代码。 - 代码天地

使用Requests和Xpath简单爬取并输出豆瓣电影（济南）代码。

其他 2019-03-10 23:01:22 阅读次数: 0

import requests #导入请求库
from lxml import etree #导入xpath
#确定抓取目标网页
url ="https://movie.douban.com/cinema/nowplaying/jinan/"
#设置请求头
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"
}
#发送get请求
response = requests.get(url=url,headers=headers)
#获取解析结果
text = response.text
#对数据进行解析:
#定义一个空列表用来存储最后的数据
video_infomation = []
#将返回的结果变成属性结构便于xpath语法提取
html = etree.HTML(text)
#查找class=lists的ul元素并将列表值提取出来:
#查看属性结构的HTML输出网页样式，用到tostring方法。
# result = etree.tostring(html).decode("utf-8")
# print(result)
ul = html.xpath('//ul[@class="lists"]')[0]#对的 可以输出 外围引号用英文单引号 内部引号用英文双引号
lis = ul.xpath("./li")
#遍历列表
for li in lis:
    data_title = li.xpath("@data-title")[0]
    data_score = li.xpath("@data-score")[0]
    data_region=li.xpath("@data-region")[0]
    data_actors=li.xpath("@data-actors")[0]
    img = li.xpath(".//img/@src")[0]
    #将获取到的数据存入字典
    video_info = {
    '电影名':data_title,
    '电影评分':data_score,
    '电影来源':data_region,
    '电影主演':data_actors,
    '电影海报':img
    }
    #将字典存在列表中
    video_infomation.append(video_info)
#输出这个列表
for item in video_infomation:
    print(item)

 


以上代码，亲测可以运行输出。2019-03-10——20:15:58。但是有一个疑问，请见下面箭头所示，为何网页源代码中后缀为webp，输出后为jpg格式？是自动导出变更图片的另一种形式吗？

猜你喜欢

转载自www.cnblogs.com/seajay/p/10507824.html

使用Requests和Xpath简单爬取并输出豆瓣电影（济南）代码。

requests结合xpath爬取豆瓣最新上映电影

使用requests爬取豆瓣电影top250

爬取豆瓣电影代码

使用requests和xpath爬取猫眼TOP100电影

requests模块之爬取豆瓣电影

使用Requests+xpath实现简单的数据爬取

简单爬虫爬取豆瓣电影信息

python3使用XPath爬取豆瓣电影Top 250

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块的学习

xpath_爬取豆瓣电影TOP250

request+lxml+xpath爬取豆瓣电影

爬取豆瓣电影

豆瓣电影爬取

Python—爬取豆瓣Top250（正则和Xpath比较）简单介绍Xpath

requests+re爬取豆瓣电影top100

爬取豆瓣电影数据（requests，基于lxml的BeautifulSoup，json）

urllib|requests爬取网页Ajax，以豆瓣电影为例

使用Python 爬取豆瓣热门电影

requests+lxml+xpath爬取电影天堂

2019-11-11 爬网页3-爬取豆瓣电影信息保存到csv(python2.7，静态页面。requests/bs4/lxml/xpath）

案例学python——案例三：豆瓣电影信息入库一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用

自我学习之简单使用python爬取豆瓣电影

爬取豆瓣电影短评并使用词云简单分析top50

一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用

爬取豆瓣电影信息

scrapy爬取豆瓣电影

Python爬取豆瓣电影

爬取豆瓣高分电影

爬取豆瓣电影的评论

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)