Python爬虫学习4：requests.post模拟登录豆瓣（包括获取验证码） - 代码天地

Python爬虫学习4：requests.post模拟登录豆瓣（包括获取验证码）

其他 2018-07-07 01:02:15 阅读次数: 0

1. 在豆瓣登录网页尝试登录后打开开发者工具，可以查找后去Headers和Form Data信息。

2. 实现代码

import requests
import html5lib
import re
from bs4 import BeautifulSoup


s = requests.Session()
url_login = 'http://accounts.douban.com/login'

formdata = {
    'redir':'https://www.douban.com',
    'form_email': '[email protected]',
    'form_password': 'zzwzyt@2015',
    'login': u'登录'
}


headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 \
           (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}

r = s.post(url_login, data = formdata, headers = headers)
content = r.text
soup = BeautifulSoup(content, 'html5lib')
captcha = soup.find('img', id = 'captcha_image')    # 查找验证码

可通过image查找验证码所在的地址（src后面的地址）

if captcha:
    captcha_url = captcha['src']
    re_captcha_id = r'<input type="hidden" name="captcha-id" value="(.*?)"/'
    captcha_id = re.findall(re_captcha_id, content)
    print(captcha_id)
    print(captcha_url)
    captcha_text = input('Please input the captcha:')
    print('已输入验证码')
    formdata['captcha-solution'] = captcha_text
    formdata['captcha-id'] = captcha_id
    r = s.post(url_login, data = formdata, headers = headers)
    
with open('contacts.txt', 'w+', encoding = 'utf-8') as f:
    f.write(r.text)

在网页打开验证码所在地址，看到验证码后手动输入即可。

猜你喜欢

转载自blog.csdn.net/zhuzuwei/article/details/80875538

Python爬虫学习4：requests.post模拟登录豆瓣（包括获取验证码）

Python使用selenium模拟登录豆瓣（无验证码）

爬虫 requests.post

模拟动态登录，获取cookie和图片验证码登录（AcFun和豆瓣）

Python爬虫模拟登录(六)：验证码识别一

Python爬虫模拟登录带验证码网站

Python3-爬虫~selenium\phantomjs\豆瓣登录过程中处理验证码

Python爬虫之模拟登陆豆瓣（有验证码）

python爬虫登录界面-验证码

学习笔记-Python爬虫4-验证码

python爬虫实战之旅（12306模拟登录+验证码识别+滑块验证）

Python爬虫模拟登录(三)：手动输入验证码，登录

Python + Requests 模拟登陆（含验证码）

python requests模拟登陆带验证码的网站

爬虫模拟登录破解无原图滑动验证码

python中requests.post方法使用

python request模拟post恶意发送验证码

requests-验证码登录

Python爬虫笔记【一】模拟用户访问之验证码清理（4）

requests.post

python爬虫精选09集（IP代理、requests.post参数、破解有道词典）

爬虫工程师教你如何用Python爬虫模拟登录带验证码网站！

python爬虫自动登录验证码解决方案

python爬虫界面登录-验证码（二）

python爬虫中的滑动验证码的登录

python 爬虫验证码模拟登陆

web爬虫讲解—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码

python selenium接入打码平台破解豆瓣验证码登录

python 爬虫如何通过scrapy简单模拟登陆豆瓣网，手动进行图形验证码的验证

豆瓣网post 爬取带验证码

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)