python网络爬虫入门（二）———模拟登陆知乎 - 代码天地

python网络爬虫入门（二）———模拟登陆知乎

其他 2018-09-25 17:17:43 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Bo_wen_/article/details/50911423

上次我写了第一个网络爬虫是抓取的天气状况，这次来尝试一下登录。

首先，像之前一样，取得header的信息。

和之前的例子不同，登录需要向服务器发送一些信息，如账号、密码等。
同样，可以使用chrome的开发者工具在network里勾选Preseve log。
然后手动执行一次登录的过程，找到一个叫email的网络请求，在header的底部有data所包含的字段，为 _xsrf，password，remember_me和 email。其中_xsrf字段可从登录页面的源码中获取。
这次，我们要创建一个session来保存相关信息和记住登录状态。

代码如下：

# -*- coding: utf-8 -*-

import requests
from bs4 import BeautifulSoup

def login():
    header = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Encoding':  'gzip, deflate, sdch',
        'Accept-Language':  'zh-CN,zh;q=0.8',
        'Cache-Control':  'max-age=0',
        'Connection':  'keep-alive',
        'User-Agent':  'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235'
    }
    session = requests.session()
    res = session.get('http://www.zhihu.com',headers = header).content
    _xsrf = BeautifulSoup(res, "html.parser").find('input', attrs={'name': '_xsrf'})['value']

    login_data = {
        '_xsrf':_xsrf,
        'password':'xxxx',
        'remember_me':'true',
        'email':'xxxx'
    }
    session.post('https://www.zhihu.com/#signin',data = login_data,headers = header)
    res = session.get('http://www.zhihu.com')
    print(res.text)

if __name__ == '__main__':
    login()

2018-02-15更新
之前的代码是写于2016年3月，现在知乎已做较大改变，已不适用。

猜你喜欢

转载自blog.csdn.net/Bo_wen_/article/details/50911423

python网络爬虫入门（二）———模拟登陆知乎

Python爬虫模拟登陆知乎

Python 模拟知乎登陆，保存登陆cookie

知乎模拟登陆

Python爬虫 —— 知乎之selenium模拟登陆+requests.Session()获取cookies

python3爬虫-知乎登陆

python爬取知乎（模拟登陆）

python模拟登陆知乎（最新版)

改版知乎模拟登陆

模拟登陆知乎，返回400

slenium模拟登陆知乎2020

Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化-转

python selenium网络爬虫模拟登陆

知乎登陆

Python爬虫入门（基础实战）—— 模拟登录知乎

(八）爬虫之js调试（登陆知乎）

爬虫获取知乎登陆的网页信息

最新，最新！selenium模拟登陆知乎

scrapy模拟登陆知乎--抓取热点话题

scrapy 登陆知乎

python爬虫模拟登陆

网络爬虫之模拟登陆（二）安卓okhttp模拟登陆

破解知乎 08-01 知乎破解加密算法模拟登陆

Python网络爬虫--模拟登陆教务处网站

Python网络爬虫-7（Scrapy模拟登陆实战）

网络爬虫之模拟登陆

webmagic爬虫自学（六）网络爬虫模拟登陆[策略二：通过Selenium模拟表单提交]

使用cookie登陆知乎

Python 爬虫——模拟登陆豆瓣

python 爬虫带验证的模拟登陆

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)