文章目录
这一节是爬取豆瓣高分电影排行榜,具体参数可以改动,比如什么种类电影、年份等,观察一下request的参数就可以了。
爬取豆瓣高分电影
import requests
import json
import re
from fake_useragent import UserAgent
if __name__ =="__main__":
get_url = 'https://movie.douban.com/j/new_search_subjects?'
params = {
'sort': 'S',
'range': '0,10',
'tags': '电影',
'start': '0',
'genres': '剧情',
'year_range': '2010,2019'
}
user = UserAgent()
headers = {
'User-Agent' : user.random
}
response = requests.get(url=get_url, params=params, headers=headers)
list_data = response.text
fp = open('./filmtop.json', 'w', encoding='utf-8')
json.dump(fp, list_data, ensure_ascii=False)
print("OK!!!")
爬取过程可能存在的问题
报错信息:在获取豆瓣高分电影时IP被封
# IP请求次数过多 请登录豆瓣
解决方法:获取伪造UA的库, 上面的代码中已经改进过。
$ pip install fake-useragent #终端输入的pip install直接下载到当前文件夹 要复制到c盘的sites-pakage下面
from fake_useragent import UserAgent
ua = UserAgent()
ua.random