【爬虫Practice2】爬取豆瓣高分电影


  这一节是爬取豆瓣高分电影排行榜,具体参数可以改动,比如什么种类电影、年份等,观察一下request的参数就可以了。

爬取豆瓣高分电影

import requests
import json
import re
from fake_useragent import UserAgent

if __name__ =="__main__":
    get_url = 'https://movie.douban.com/j/new_search_subjects?'
    params = {
    
    
        'sort': 'S',
        'range': '0,10',
        'tags': '电影',
        'start': '0',
        'genres': '剧情',
        'year_range': '2010,2019'
    }
    user = UserAgent()
    headers = {
    
    
        'User-Agent' : user.random
    }
    response = requests.get(url=get_url, params=params, headers=headers)
    list_data = response.text
    fp = open('./filmtop.json', 'w', encoding='utf-8')
    json.dump(fp, list_data, ensure_ascii=False)
    print("OK!!!")

爬取过程可能存在的问题

报错信息:在获取豆瓣高分电影时IP被封

# IP请求次数过多 请登录豆瓣

解决方法:获取伪造UA的库, 上面的代码中已经改进过。

$ pip install fake-useragent   #终端输入的pip install直接下载到当前文件夹 要复制到c盘的sites-pakage下面
from fake_useragent import UserAgent 
ua = UserAgent()
ua.random

猜你喜欢

转载自blog.csdn.net/lily_i/article/details/121879843