潭州课堂25班：Ph201805201 爬虫基础第五课（案例）豆瓣分析 (课堂笔记) - 代码天地

潭州课堂25班：Ph201805201 爬虫基础第五课（案例）豆瓣分析 (课堂笔记)

其他 2018-09-01 08:45:08 阅读次数: 0

动态讲求，

# -*- coding: utf-8 -*-
# 斌彬电脑
# @Time : 2018/9/1 0001 3:44

import requests,json

class DouBan:
    def __init__(self):
        #请求头部信息
        self.headers = {'User-Agent':"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Mobile Safari/537.36"}
        self.offset = 0         #  翻页参数
        self.n = 0              #  页码
        self.file = open('douban.json', 'a', encoding='utf8')

    def start_request(self):
        self.n += 1                     #  页码
        print('第%s页'%(str(self.n)))
        #  url 与 翻页参数 数拼接
        # url = 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=' +str(self.offset)+ '&limit=1'
        url = 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=' +str(self.offset)+ '&limit=20'
        res = requests.get(url,self.headers)
        # res.content.decode()        #  获取源码
        cont = res.json()              # 获取 json 数据
        # return cont
        self.write_file(cont)
        self.file.write('\n#############第%s页##################\n\n'%(str(self.n)))
        self.offset += 20
        if self.offset > 600:
            return
        self.start_request()        #  回调下自己，

    def write_file(self,cont):          # 保存数据
        item = {}                       # 定义个字典 重装
        for i in cont:
            item['regions'] = i['regions'][0]               # 地区
            item['title'] = i['title']                  # 电影名
            item['url1'] = i['url']
            item['release_date'] = i['release_date']    #时间
            item1 = json.dumps(item, ensure_ascii=False )       #  ensure_ascii=False 让 json 可读 数据转换
            self.file.write(item1+'\n')                       # 写数据


if __name__ == '__main__':
    spider = DouBan()
    spider.start_request()
    spider.file.close()

　　

扫描二维码关注公众号，回复： 2993611 查看本文章

猜你喜欢

转载自www.cnblogs.com/gdwz922/p/9569026.html

潭州课堂25班：Ph201805201 爬虫基础第五课（案例）豆瓣分析 (课堂笔记)

潭州课堂25班：Ph201805201 爬虫高级第五课 sclapy 框架日志和 settings 配置(课堂笔记）

潭州课堂25班：Ph201805201 爬虫高级第五课 sclapy 框架中间建与selenium对接 (课堂笔记）

潭州课堂25班：Ph201805201 爬虫高级第五课 sclapy 框架爬前程网 (课堂笔记）

潭州课堂25班：Ph201805201 爬虫高级第三课 sclapy 框架腾讯招聘案例 (课堂笔记）

潭州课堂25班：Ph201805201 爬虫基础第二课 fidder (课堂笔记)

潭州课堂25班：Ph201805201 爬虫基础第三课 fidder (课堂笔记)

潭州课堂25班：Ph201805201 爬虫基础第六课选择器 (课堂笔记)

潭州课堂25班：Ph201805201 爬虫基础第七课 Python与常见加密方式 (课堂笔记)

潭州课堂25班：Ph201805201 爬虫基础第十四课 js破解 (课堂笔记）

潭州课堂25班：Ph201805201 WEB 之 JS 第五课 (课堂笔记)

潭州课堂25班：Ph201805201 django 项目第五课模板抽取，函数视图 (课堂笔记)

潭州课堂25班：Ph201805201 django框架第八课博客小案例 (课堂笔记)

潭州课堂25班：Ph201805201 爬虫高级第十三课代理池爬虫检测部分 (课堂笔记)

潭州课堂25班：Ph201805201 爬虫高级第一课 pyspider框架 (课堂笔记）

潭州课堂25班：Ph201805201 爬虫高级第四课 sclapy 框架 crawispider类 (课堂笔记）

潭州课堂25班：Ph201805201 爬虫高级第十二课 Scrapy-redis分布项目实战 (课堂笔记)

潭州课堂25班：Ph201805201 第七课：函数基础和函数参数 (课堂笔记)

潭州课堂25班：Ph201805201 爬虫基础第十三课 cookie (课堂笔记）

潭州课堂25班：Ph201805201 第五课：格式化输出和深浅复制 (课堂笔记)

潭州课堂25班：Ph201805201 python 操作数据库第五课 (课堂笔记)

潭州课堂25班：Ph201805201 django 项目第八课注册功能分析，图片验证码视图设计 (课堂笔记）

潭州课堂25班：Ph201805201 并发（协程）第十五课 (课堂笔记)

潭州课堂25班：Ph201805201 第七课：控制流程 (课堂笔记)

潭州课堂25班：Ph201805201 第十四课异常，处理 (课堂笔记)

潭州课堂25班：Ph201805201 MySQL第一课 (课堂笔记)

cc潭州课堂25班：Ph201805201 MySQL第二课 (课堂笔记)

c潭州课堂25班：Ph201805201 MySQL第三课 (课堂笔记)

潭州课堂25班：Ph201805201 redis第三课 (课堂笔记)

潭州课堂25班：Ph201805201 django 项目第一课 (课堂笔记)

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)