python3爬虫 —— 爬取豆瓣电影信息 - 代码天地

python3爬虫 —— 爬取豆瓣电影信息

编程语言 2019-04-07 22:20:51 阅读次数: 0

爬取豆瓣网站的电影信息，并保存到excel中。

代码：

import re,xlwt,requests

#初始化并创建一个工作簿
book = xlwt.Workbook()
#创建一个名为sheetname的表单
sheet = book.add_sheet('movie') #重复写入数据

headings = [u'排名', u'电影名称',u'导演',u'国家',u'年份',u'评分']
k =0
for j in headings:
    sheet.write(0, k, j)
    k = k+1


url = ' https://movie.douban.com/top250'
#头部信息
headers = {
        'user_agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
    }

try:
    r= requests.get(url,timeout=30,headers=headers)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    text = r.text
    movie_info = re.findall(r'div class="pic">([\d\D]*?)<p class="quote">',text)

    count = 1
    for i in movie_info:
        rank = re.findall(r'<em class="">([\d]*)</em>',i)
        name = re.findall(r'span class="title">(\w*)</span>',i)
        director = re.findall(r'导演:([\d\D]*?)&nbsp;',i)
        year = re.findall(r'(\d{4})&nbsp;/&nbsp;',i)
        country = re.findall(r'\d{4}&nbsp;/&nbsp;([\d\D]*?)&nbsp;/&nbsp;',i)
        score = re.findall(r'<span class="rating_num" property="v:average">([\d.\d]*)',i)

        sheet.write(count,0,rank)
        sheet.write(count, 1, name)
        sheet.write(count, 2,  director)
        sheet.write(count, 3, year)
        sheet.write(count, 4, country)
        sheet.write(count, 5, score)

        count = count + 1
    book.save('电影信息.xls')

except:
    print('失败')

猜你喜欢

转载自blog.csdn.net/weixin_42365428/article/details/89075413

python3爬虫 —— 爬取豆瓣电影信息

python爬虫，爬取豆瓣电影信息

python爬虫爬取豆瓣电影信息

简单爬虫爬取豆瓣电影信息

爬虫爬取豆瓣高分电影信息

爬虫实践--豆瓣电影当前上映电影信息爬取

Python爬虫入门 | 2 爬取豆瓣电影信息

Python爬虫入门 | 爬取豆瓣电影信息

python爬虫——爬取豆瓣top250电影信息

爬虫实战：爬取豆瓣TOP250电影信息

【爬虫】爬取豆瓣Top250电影信息

python爬取豆瓣电影Top250的信息

Python实现的爬取豆瓣电影信息功能案例

python项目-爬取豆瓣top250电影信息

Python爬取豆瓣电影

python3爬取豆瓣排名前250电影信息

python爬虫（一）爬取豆瓣电影排名前50名电影的信息

python爬虫实践——爬取豆瓣电影

Python爬虫--爬取豆瓣电影

爬取豆瓣电影top250（python3）

爬虫之爬取豆瓣电影的名字

零基础爬虫----python爬取豆瓣电影top250的信息

零基础爬虫----python爬取豆瓣电影top250的信息（转）

python爬虫Day2：爬取豆瓣电影信息top250

python爬虫(九、爬取豆瓣top250电影信息并插入数据库sqlite)

python scrapy爬虫练习(1) 爬取豆瓣电影top250信息

Python爬虫新手入门教学（一）：爬取豆瓣电影排行信息

python 爬取豆瓣电影案例

Python爬取豆瓣电影top

使用Python 爬取豆瓣热门电影

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

Ubuntu 14.04 下Fuel6.0安装部署

香港一小巴侧翻致1死16伤警方：未见机件故障

pikachu--XSS盲打

阅读深入理解JVM虚拟机笔记一

java.sql.SQLException: ORA-00932: 数据类型不一致: 应为 -, 但却获得 CLOB

oracle delete all object under an user

[LeetCode]20 Valid Parentheses 有效的括号

树形DP求树的直径【模板】

Context propagation over HTTP in Go

【PAT】（B）1053 住房空置率 (20)*

每日归档

更多

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)