python初试——模拟登陆 - 代码天地

python初试——模拟登陆

其他 2018-08-28 12:11:17 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Mr_shashadudu/article/details/78450219

许多网页必须先登录再抓取信息，也遇到了一个网站抓取不到内容，但在模拟登陆之后就抓到了内容。一开始模拟登陆也踩了坑，所以在这里以模拟登陆泰晤士报为例。

这里采用requests和lxml实现模拟登陆

1. 引入requests

这里写图片描述

2. 查看网页登录的请求内容

（可以使用错误的用户名密码登录，方便找到post）由此可见实际的请求url为https://login.thetimes.co.uk/

这里写图片描述
我们可以看到请求数据中包含【gotoUrl、s、username、password、rememberMe、Submit】这几部分内容，所以可以将这些写进我们的请求中

values = {'gotoUrl': 'https%3A%2F%2Fwww.thetimes.co.uk%2F', 's': '1', 'username': '*****', 'password': '******', 'rememberMe': 'on', 'Submit': 'Login'}

3.请求代码

URL_login= r'https://login.thetimes.co.uk/'
s = requests.session()
f= s.post(URL_login,data=values,headers = headers)

使用requests的session方法登录，将url、values、headers写入。（默认头部是带有python的，可能会被网站识别为爬虫而遭拒绝，所以可以自己传入头部，比如自己使用的浏览器）

url = 'https://www.thetimes.co.uk'
html = s.get(url,headers = headers).content
root = etree.HTML(html.decode('utf-8','ignore'))

之后就可以使用请求成功之后的session进入网站抓取所需的内容。具体代码可参考我的github

猜你喜欢

转载自blog.csdn.net/Mr_shashadudu/article/details/78450219

python初试——模拟登陆

python模拟登陆

python爬虫模拟登陆

python笔记--模拟登陆

Python模拟登陆DVWA

Python模拟登陆TAPD

python模拟登陆淘宝

Python 模拟登陆系统

Python 模拟知乎登陆，保存登陆cookie

python模拟登陆csdn，实测登陆正常

Python---模拟登陆GitHub

Python 爬虫——模拟登陆豆瓣

python 发送Cookie模拟登陆

Python装饰器模拟京东登陆

python模拟登陆网站

python 爬虫带验证的模拟登陆

专利检索及分析模拟登陆(python)

python爬虫模拟登陆微博

Python豆瓣网模拟登陆

最新豆瓣模拟登陆（python实现）

Python爬虫之selenium模拟登陆

python selenium网络爬虫模拟登陆

python 爬虫之模拟登陆

Python利用requests模拟登陆豆瓣

Python模拟账号创建以及登陆

python 装饰器模拟京东登陆

python-requests 模拟登陆京东

python项目实战:模拟登陆CSDN

python模拟登陆Github示例

python爬虫学习：模拟登陆

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)