python3爬取豆瓣排名前250电影信息 - 代码天地

python3爬取豆瓣排名前250电影信息

其他 2019-03-02 16:21:22 阅读次数: 0

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @File  : doubanmovie.py
# @Author: Anthony.waa
# @Date  : 2019/3/2 0028
# @Desc  : PyCharm


import requests
from lxml import html

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
}

# 爬取页面内容
def moviesInfo(url):
    reponse = requests.get(url=url, headers=headers).content
    bs = html.fromstring(reponse)
    num = 0
    for i in bs.xpath('//div[@class ="info"]'):
        try:
            # 电影名称
            movieName = i.xpath('div[@class="hd"]/a/span[@class="title"]/text()')[0]
            # 电影信息
            movieInfo = i.xpath('div[@class="bd"]/p[1]/text()')
            # 电影简述
            movieDescribes = i.xpath('//span[@class="inq"]/text()')
            # 电影评论人数
            movieNums = i.xpath('//div[@class="star"]/span[4]/text()')


            # 上映国家
            moviePeople = movieInfo[1].replace(" ","").replace("\n","").split("/")[1]
            # 电影上映时间
            movieDate = movieInfo[1].replace(" ","").replace("\n","").split("/")[0]
            # 获取电影的每一条简述
            movieDescribe = movieDescribes[num]
            # 获取每一个电影的评论人数
            movieNum = movieNums[num]

            with open('2019movies.txt','a+',encoding="utf-8") as file:
                file.writelines("%s   %s   %s   %s   %s\n"%(movieName, moviePeople, movieDate, movieDescribe,movieNum))
            # print(movieName, moviePeople, movieDate, movieDescribe,movieNum,'\n')
            num += 1
        except Exception as e:
            break



if __name__ == '__main__':
    num = 0
    for i in range(10):
        page = 'https://movie.douban.com/top250?start=%d&filter='%num
        moviesInfo(page)
        num += 25

　　

猜你喜欢

转载自www.cnblogs.com/ipyanthony/p/10461440.html

python3爬取豆瓣排名前250电影信息

爬取豆瓣电影top250（python3）

python3爬虫 —— 爬取豆瓣电影信息

Python爬取豆瓣高分电影前250名

python爬虫（一）爬取豆瓣电影排名前50名电影的信息

python爬虫豆瓣排名前250的电影

爬取豆瓣电影排名前250部电影并且存入Mongo数据库

python爬取豆瓣电影Top250的信息

python爬虫——爬取豆瓣top250电影信息

python项目-爬取豆瓣top250电影信息

使用python3爬取豆瓣电影top250

python3 爬取豆瓣电影TOP250，漂亮表格彩色显示

Python3 Scrapy框架学习二：爬取豆瓣电影Top250

python3使用XPath爬取豆瓣电影Top 250

爬取豆瓣电影评分前250部电影

python爬虫爬取豆瓣电影前250名电影及评分（requests+pyquery)

爬取豆瓣电影排行榜前250

爬取豆瓣TOP250个电影信息

Scrapy爬取豆瓣电影Top250信息

爬取豆瓣top250电影的信息

爬虫实战：爬取豆瓣TOP250电影信息

【爬虫】爬取豆瓣Top250电影信息

Python爬虫学习笔记(3) _豆瓣电影TOP250(3)采用sql存储的方法爬取豆瓣电影

零基础爬虫----python爬取豆瓣电影top250的信息

Python爬取豆瓣Top250电影中2000年后上映的影片信息

零基础爬虫----python爬取豆瓣电影top250的信息（转）

python爬虫Day2：爬取豆瓣电影信息top250

python采用requests+bs4爬取豆瓣top250电影信息

python爬虫(九、爬取豆瓣top250电影信息并插入数据库sqlite)

使用python爬取豆瓣电影top250相关信息

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)