爬取豆瓣正在上映的影片信息 - 代码天地

爬取豆瓣正在上映的影片信息

其他 2018-12-26 16:38:18 阅读次数: 0

import requests
from lxml import etree


# 将目标网站上的页面抓取下来
# headers  ->   url  -> requests   -> response
# response.text  返回的是一个经过解码后的字符串，是str（unicode）类型
# response.content 返回的是一个原生的字符串，就是从网页上抓取下来的，没有经过处理的字符串，是bytes类型
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
    'Referer':'https://movie.douban.com/'
}

url = 'https://movie.douban.com/cinema/nowplaying/nanjing/'
response = requests.get(url,headers=headers)
text = response.text

# 将抓取下来的数据根据一定的规则进行提取
html = etree.HTML(text,parser=etree.HTMLParser())    # parser   html解析器
ul = html.xpath("//ul[@class='lists']")[0]    # 获取属性为lists的ul标签内容，因为正在上映和即将上映是一样的，所以取列表的第一个元素，即正在上映的ul
lis = ul.xpath("./li")    # 获取ul标签下的li标签(每部影片在一个li标签下面)
movies = []

for li in lis:
    title = li.xpath("@data-title")[0]   # xpath返回的是一个列表    影片名字
    score = li.xpath("@data-score")[0]   # 影片评分
    release_time = li.xpath("@data-release")[0]  # 上映时间
    time = li.xpath("@data-duration")[0]    # 影片时长
    region = li.xpath("@data-region")[0]   # 制片国家地区
    director = li.xpath("@data-director")[0]  #导演
    actors = li.xpath("@data-actors")[0]   #主演
    category = li.xpath("@data-category")[0]    #上映类型
    image = li.xpath(".//img/@src")[0]   # 图片链接


    movie = {
        'title':title,
        'score':score,
        'release':release_time,
        'time':time,
        'region':region,
        'director':director,
        'actors':actors,
        'category':category,
        'image_link':image
    }

    movies.append(movie)

for movie in movies:
    for value in movie.values():
        print(value + "||",end="")
    print()

猜你喜欢

转载自blog.csdn.net/qq_40727267/article/details/85255997

爬取豆瓣正在上映的影片信息

爬取豆瓣正在上映的电影

爬取豆瓣正在上映的电影名称及评分

Python爬取豆瓣Top250电影中2000年后上映的影片信息

爬虫实践--豆瓣电影当前上映电影信息爬取

豆瓣API获取数据，sarts组件，更改“正在上映”

正在上映+即将上映

Python进阶练习与爬取豆瓣T250的影片相关信息

requests结合xpath爬取豆瓣最新上映电影

爬取豆瓣的正在热映电影

python中feedparser用法（rss订阅获取正在上映的电影信息）

豆瓣影评信息爬取

爬取豆瓣电影信息

beautiful爬取豆瓣信息

Python3-豆瓣电影影片差评和影片封面照片的爬取

使用python3 爬取豆瓣电影热映和即将上映

python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己

Python爬取豆瓣网中即将上映的电影数据清单

爬虫实战(8)-爬取豆瓣网最近要上映的电影

到豆瓣爬取电影信息

scrapy爬取豆瓣电影信息

python爬虫，爬取豆瓣电影信息

爬取豆瓣网电影的数据信息

简单爬虫爬取豆瓣电影信息

python爬虫爬取豆瓣电影信息

爬虫爬取豆瓣高分电影信息

怎么爬取豆瓣电影信息

利用爬虫爬取豆瓣前250影片和数据可视化

Python新手爬虫一：爬取豆瓣影片名称

120行代码爬取豆瓣电影，附源码!就拿刚上映的复联4做例子！

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)