豆瓣电影爬虫

其他 2019-04-04 14:20:51 阅读次数: 0

import requests#抓取数据使用
from bs4 import BeautifulSoup#分析数据使用
import json#存储数据使用

抓取数据

def get_page():
url = ‘https://movie.douban.com/cinema/nowplaying/chengdu/’
headers = {
‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36’
}
response = requests.get(url,headers = headers)
return response.text

解析数据

def parse_page(text):
movies = [ ]
soup = BeautifulSoup(text,‘lxml’)#lxml是一个解析库，支持HTML和XML的解析
lilist = soup.find_all(‘li’,attrs={‘data-category’:‘nowplaying’})
for li in lilist:
movie = {}
title = li[‘data-title’]#字典的获取方式
release = li[‘data-release’]
duration = li[‘data-duration’]
director = li[‘data-director’]
actors = li[‘data-actors’]
img = li.find(‘img’)
thumbnail = img[‘src’]
# movie字典
movie[‘title’] = title
movie[‘release’] = release
movie[‘duration’] = duration
movie[‘actors’] = actors
movie[‘thumbnail’] = thumbnail
movies.append(movie)
return movies

存取数据

def save_page(data):
with open(‘douban.json’,‘w’,encoding=‘utf-8’) as fp:
#encoding:编码方式
json.dump(data,fp,ensure_ascii=False)

简单说就是dump需要一个类似于文件指针的参数（并不是真的指针，可称之为类文件对象），可以与文件操作结合，

也就是说可以将dict转成str然后存入文件中；

而dumps直接给的是str，也就是将字典转成str

if name == ‘main’:
text = get_page()
movies = parse_page(text)
save_page(movies)

猜你喜欢

转载自blog.csdn.net/sdsc1314/article/details/88824850

爬虫豆瓣电影

豆瓣电影爬虫+分析

豆瓣上映电影爬虫

豆瓣电影爬虫

python豆瓣电影爬虫

豆瓣电影爬虫练习

【爬虫】总结-豆瓣电影

豆瓣电影爬虫编写教程

【爬虫】问题集-豆瓣电影

豆瓣电影(一)：网络爬虫

网络爬虫之豆瓣电影

初试python爬虫之：豆瓣电影爬虫

python爬虫，爬取豆瓣电影信息

爬虫_豆瓣电影top250

python爬虫——豆瓣电影Top250

【Python】从0开始写爬虫——豆瓣电影

爬虫之爬取豆瓣电影的名字

豆瓣即将上映电影爬虫作业

python爬虫实践——爬取豆瓣电影

豆瓣TOP250 电影爬虫

使用selenium爬虫豆瓣电影信息

简单爬虫爬取豆瓣电影信息

爬虫豆瓣TOP250电影数据

python爬虫爬取豆瓣电影信息

爬虫爬取豆瓣高分电影信息

python爬虫--用xpath爬豆瓣电影

爬虫豆瓣电影存入csv文件

go学习总结（十）-爬虫（豆瓣电影）

豆瓣电影页面python爬虫解析

自编Python程序: 豆瓣电影排名(爬虫)

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)