爬取豆瓣top250电影练习

  

注意这里的细节哦,对应代码好好看。 

import requests
from bs4 import BeautifulSoup

def get_movies():
    headers = {
        'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Safari/605.1.15',
        'Host':'movie.douban.com' 
    }
    '''
    headers = {
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
        'Host':'movie.douban.com'
    } 原作者的headers.
    '''
    
    movie_list = []
    for i in range(0, 10):
        link = "https://movie.douban.com/top250?start=" + str(i * 25)
        r = requests.get(link, headers=headers, timeout=10)
        print(r.status_code)
        print(r.text)
        print(link)

        soup = BeautifulSoup(r.text,'lxml')
        div_list = soup.find_all('div',class_='hd')
        for each in div_list:
            movie = each.a.span.text.strip()
            movie_list.append(movie)
            # print(movie_list)
    return movie_list

movies = get_movies()
print(movies)
movies_str=str(movies)

with open('movens.txt','a+') as f:
    f.write(movies_str)
    f.close()

输出结果: 

 ['肖申克的救赎', '霸王别姬', '阿甘正传', '这个杀手不太冷', '泰坦尼克号', '美丽人生', '千与千寻', '辛德勒的名单', '盗梦空间', '忠犬八公的故事', '星际穿越', '楚门的世界', '海上钢琴师', '三傻大闹宝莱坞', '机器人总动员', '放牛班的春天', '无间道', '疯狂动物城', '大话西游之大圣娶亲', '熔炉', '教父', '当幸福来敲门', '龙猫', '控方证人', '怦然心动', '触不可及', '末代皇帝', '蝙蝠侠:黑暗骑士', '寻梦环游记', '活着', '指环王3:王者无敌', '哈利·波特与魔法石', '乱世佳人', '何以为家', '素媛', '飞屋环游记', '摔跤吧!爸爸', '十二怒汉', '哈尔的移动城堡', '我不是药神', '少年派的奇幻漂流', '鬼子来了', '大话西游之月光宝盒', '天空之城', '天堂电影院', '猫鼠游戏', '闻香识女人', '指环王2:双塔奇兵', '罗马假日', '钢琴家', '让子弹飞', '指环王1:护戒使者', '辩护人', '大闹天宫', '教父2', '狮子王', '死亡诗社', '黑客帝国', '海蒂和爷爷', '搏击俱乐部', '绿皮书', '饮食男女', '美丽心灵', '窃听风暴', '本杰明·巴顿奇事', '两杆大烟枪', '情书', '穿条纹睡衣的男孩', '西西里的美丽传说', '看不见的客人', '飞越疯人院', '拯救大兵瑞恩', '音乐之声', '小鞋子', '阿凡达', '海豚湾', '致命魔术', '沉默的羔羊', '美国往事', '哈利·波特与死亡圣器(下)', '禁闭岛', '蝴蝶效应', '布达佩斯大饭店', '心灵捕手', '低俗小说', '春光乍泄', '七宗罪', '摩登时代', '喜剧之王', '致命ID', '被嫌弃的松子的一生', '杀人回忆', '加勒比海盗', '红辣椒', '剪刀手爱德华', '狩猎', '请以你的名字呼唤我', '勇敢的心', '7号房的礼物', '功夫', '断背山', '超脱', '哈利·波特与阿兹卡班的囚徒', '天使爱美丽', '入殓师', '唐伯虎点秋香', '第六感', '幽灵公主', '重庆森林', '小森林 夏秋篇', '阳光灿烂的日子', '爱在黎明破晓前', '一一', '蝙蝠侠:黑暗骑士崛起', '菊次郎的夏天', '消失的爱人', '无人知晓', '超能陆战队', '哈利·波特与密室', '小森林 冬春篇', '完美的世界', '倩女幽魂', '爱在日落黄昏时', '侧耳倾听', '借东西的小人阿莉埃蒂', '甜蜜蜜', '萤火之森', '驯龙高手', '幸福终点站', '玛丽和马克思', '时空恋旅人', '大鱼', '告白', '怪兽电力公司', '阳光姐妹淘', '射雕英雄传之东成西就', '神偷奶爸', '傲慢与偏见', '教父3', '玩具总动员3', '恐怖直播', '釜山行', '一个叫欧维的男人决定去死', '哪吒闹海', '被解救的姜戈', '血战钢锯岭', '未麻的部屋', '头号玩家', '七武士', '我是山姆', '寄生虫', '喜宴', '新世界', '电锯惊魂', '模仿游戏', '哈利·波特与火焰杯', '花样年华', '黑客帝国3:矩阵革命', '卢旺达饭店', '上帝之城', '风之谷', '三块广告牌', '疯狂原始人', '谍影重重3', '英雄本色', '你的名字。', '头脑特工队', '达拉斯买家俱乐部', '纵横四海', '心迷宫', '岁月神偷', '记忆碎片', '忠犬八公物语', '海街日记', '惊魂记', '荒蛮故事', '九品芝麻官', '爆裂鼓手', '贫民窟的百万富翁', '真爱至上', '东邪西毒', '绿里奇迹', '小偷家族', '爱在午夜降临前', '无敌破坏王', '黑天鹅', '冰川时代', '你看起来好像很好吃', '疯狂的石头', '萤火虫之墓', '雨人', '色,戒', '雨中曲', '恐怖游轮', '恋恋笔记本', '魔女宅急便', '2001太空漫游', '城市之光', '可可西里', '二十二', '虎口脱险', '人工智能', '初恋这件小事', '海边的曼彻斯特', '遗愿清单', '奇迹男孩', '大佛普拉斯', '罗生门', '终结者2:审判日', '牯岭街少年杀人事件', '房间', '青蛇', '源代码', '无间道2', '新龙门客栈', '东京教父', '疯狂的麦克斯4:狂暴之路', '魂断蓝桥', '波西米亚狂想曲', '无耻混蛋', '步履不停', '血钻', '茶馆', '彗星来的那一夜', '燃情岁月', '战争之王', '千钧一发', '黑客帝国2:重装上阵', '谍影重重2', '海洋', '崖上的波妞', '阿飞正传', '穿越时空的少女', '背靠背,脸对脸', '谍影重重', '地球上的星星', '香水', '小丑', '完美陌生人', '再次出发之纽约遇见你', '我爱你', '爱乐之城', '朗读者', '火星救援', '驴得水', '聚焦', '小萝莉的猴神大叔', '浪潮', '猜火车', '千年女优']['肖申克的救赎', '霸王别姬', '阿甘正传', '这个杀手不太冷', '泰坦尼克号', '美丽人生', '千与千寻', '辛德勒的名单', '盗梦空间', '忠犬八公的故事', '星际穿越', '楚门的世界', '海上钢琴师', '三傻大闹宝莱坞', '机器人总动员', '放牛班的春天', '无间道', '疯狂动物城', '大话西游之大圣娶亲', '熔炉', '教父', '当幸福来敲门', '龙猫', '控方证人', '怦然心动', '触不可及', '末代皇帝', '蝙蝠侠:黑暗骑士', '寻梦环游记', '活着', '指环王3:王者无敌', '哈利·波特与魔法石', '乱世佳人', '何以为家', '素媛', '飞屋环游记', '摔跤吧!爸爸', '十二怒汉', '哈尔的移动城堡', '我不是药神', '少年派的奇幻漂流', '鬼子来了', '大话西游之月光宝盒', '天空之城', '天堂电影院', '猫鼠游戏', '闻香识女人', '指环王2:双塔奇兵', '罗马假日', '钢琴家', '让子弹飞', '指环王1:护戒使者', '辩护人', '大闹天宫', '教父2', '狮子王', '死亡诗社', '黑客帝国', '海蒂和爷爷', '搏击俱乐部', '绿皮书', '饮食男女', '美丽心灵', '窃听风暴', '本杰明·巴顿奇事', '两杆大烟枪', '情书', '穿条纹睡衣的男孩', '西西里的美丽传说', '看不见的客人', '飞越疯人院', '拯救大兵瑞恩', '音乐之声', '小鞋子', '阿凡达', '海豚湾', '致命魔术', '沉默的羔羊', '美国往事', '哈利·波特与死亡圣器(下)', '禁闭岛', '蝴蝶效应', '布达佩斯大饭店', '心灵捕手', '低俗小说', '春光乍泄', '七宗罪', '摩登时代', '喜剧之王', '致命ID', '被嫌弃的松子的一生', '杀人回忆', '加勒比海盗', '红辣椒', '剪刀手爱德华', '狩猎', '请以你的名字呼唤我', '勇敢的心', '7号房的礼物', '功夫', '断背山', '超脱', '哈利·波特与阿兹卡班的囚徒', '天使爱美丽', '入殓师', '唐伯虎点秋香', '第六感', '幽灵公主', '重庆森林', '小森林 夏秋篇', '阳光灿烂的日子', '爱在黎明破晓前', '一一', '蝙蝠侠:黑暗骑士崛起', '菊次郎的夏天', '消失的爱人', '无人知晓', '超能陆战队', '哈利·波特与密室', '小森林 冬春篇', '完美的世界', '倩女幽魂', '爱在日落黄昏时', '侧耳倾听', '借东西的小人阿莉埃蒂', '甜蜜蜜', '萤火之森', '驯龙高手', '幸福终点站', '玛丽和马克思', '时空恋旅人', '大鱼', '告白', '怪兽电力公司', '阳光姐妹淘', '射雕英雄传之东成西就', '神偷奶爸', '傲慢与偏见', '教父3', '玩具总动员3', '恐怖直播', '釜山行', '一个叫欧维的男人决定去死', '哪吒闹海', '被解救的姜戈', '血战钢锯岭', '未麻的部屋', '头号玩家', '七武士', '我是山姆', '寄生虫', '喜宴', '新世界', '电锯惊魂', '模仿游戏', '哈利·波特与火焰杯', '花样年华', '黑客帝国3:矩阵革命', '卢旺达饭店', '上帝之城', '风之谷', '三块广告牌', '疯狂原始人', '谍影重重3', '英雄本色', '你的名字。', '头脑特工队', '达拉斯买家俱乐部', '纵横四海', '心迷宫', '岁月神偷', '记忆碎片', '忠犬八公物语', '海街日记', '惊魂记', '荒蛮故事', '九品芝麻官', '爆裂鼓手', '贫民窟的百万富翁', '真爱至上', '东邪西毒', '绿里奇迹', '小偷家族', '爱在午夜降临前', '无敌破坏王', '黑天鹅', '冰川时代', '你看起来好像很好吃', '疯狂的石头', '萤火虫之墓', '雨人', '色,戒', '雨中曲', '恐怖游轮', '恋恋笔记本', '魔女宅急便', '2001太空漫游', '城市之光', '可可西里', '二十二', '虎口脱险', '人工智能', '初恋这件小事', '海边的曼彻斯特', '遗愿清单', '奇迹男孩', '大佛普拉斯', '罗生门', '终结者2:审判日', '牯岭街少年杀人事件', '房间', '青蛇', '源代码', '无间道2', '新龙门客栈', '东京教父', '疯狂的麦克斯4:狂暴之路', '魂断蓝桥', '波西米亚狂想曲', '无耻混蛋', '步履不停', '血钻', '茶馆', '彗星来的那一夜', '燃情岁月', '战争之王', '千钧一发', '黑客帝国2:重装上阵', '谍影重重2', '海洋', '崖上的波妞', '阿飞正传', '穿越时空的少女', '背靠背,脸对脸', '谍影重重', '地球上的星星', '香水', '小丑', '完美陌生人', '再次出发之纽约遇见你', '我爱你', '爱乐之城', '朗读者', '火星救援', '驴得水', '聚焦', '小萝莉的猴神大叔', '浪潮', '猜火车', '千年女优']

参考资料

python爬取豆瓣电影top250,代码及思路 - 知乎
BeautifulSoup中的find,find_all - 做梦当财神 - 博客园
网页中怎么查看请求头header信息_xiezhiming1234的博客-CSDN博客_网页请求头

猜你喜欢

转载自blog.csdn.net/weixin_43332715/article/details/121525484