python 爬取需要登录资源的一种方法 - 代码天地

python 爬取需要登录资源的一种方法

编程语言 2018-05-11 04:20:38 阅读次数: 1

基友教了我一招，爬虫爬取登录后的资源不用直接上phantom.js之流来模拟浏览器客户端。
直接把有用的cookie找出来，当做token，在爬虫发http request的时候把cookie戴上就行。

当然这个cookie先带上，用postman之类的工具先试试管不管用。

举个栗子：

# 这是一段scrapy代码
def start_requests(self):
        username = getattr(self, 'username', None)
        self.username = username

        # for pageNo in range(19, 20):
        for pageNo in range(1, 1501):
            urlNow = 'https://www.douban.com/people/%s/statuses?p=%s' % (
                username, pageNo)
            urlNow.format(username, pageNo)

            yield scrapy.Request(url=urlNow, callback=self.stupidParse, cookies={'bid': self.settings['BID'], 'dbcl2': self.settings['DBCL2']})

代码都在我的github上，欢迎学习交流
https://github.com/chan17/MuggleHorcrux/blob/master/MainCrawler/douban/doubanStatuses/spiders/doubanStatuses.py

猜你喜欢

转载自my.oschina.net/chan17/blog/1785305

python 爬取需要登录资源的一种方法

Python下载的11种方法，一种比一种高级

Python实现"环形链表"的一种方法

Python实现"计算质数"的一种方法

Python实现"打家劫舍"的一种方法

Python实现"快乐的数"的一种方法

Python压平嵌套列表的一种方法

Python判断质数的另一种方法

python爬取知乎话题：日常穿JK制服是一种怎样的体验？

python---------bs4爬取数据的一种神器

三种方法编写Python程序：“Hello world”（目前只会一种）

Python3创建RIDE桌面快捷方式的另一种方法

python 关于Decimal 保留小数点后尾数的另一种方法

Python实现"买卖股票的最佳时机||"的一种方法

Python实现"买卖股票的最佳时机"的一种方法

Python实现"平衡二叉树"的一种方法

Python实现"二叉树的层次遍历||"的一种方法

Python实现"用队列实现栈"的一种方法

Python实现"删除链表中的节点(Remove Linked List Elements)"的一种方法

Python实现"存在重复元素||"的一种方法

Python爬虫处理JS翻页的一种方法，利用Ajax异步请求

python3.7 打包成exe的一种方法 pyinstaller

树莓派开机启动python脚本的另一种方法

Python在输入时设置等待时间的一种方法

Python编程，设置utf-8为默认编码的一种方法

C#调用python脚本并传递参数的一种方法

Python 实现Selenium录屏的一种方法(图片整合成动态图)

C++程序获取python脚本控制台输出的一种方法

python爬取知乎话题："日常穿jk制服是怎样一种体验？"下的所有图片

python实现的一种排序方法

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)