python3 urllib爬虫，你只需要看这一篇就够了 - 代码天地

python3 urllib爬虫，你只需要看这一篇就够了

其他 2018-11-01 06:28:19 阅读次数: 0

版权声明：本文为博主原创文章，未经允许，不得转载，如需转载请注明出处 https://blog.csdn.net/ssjdoudou/article/details/83412751

写在最前面：以下数据均脱敏

from urllib import request
import requests
import urllib

if __name__ == "__main__":
    # 接口的url
    session_requests = requests.session()
    data = {'username': '11111111', 'password': '11111111'}
    requrl ='https://xxxxxx.com/xx/login?xxxxxxxxxxxxxxxxxxxxxxx' #登录请求url
    headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:58.0) Gecko/20100101 Firefox/58.0'}
    # 发送请求
    conn=requests.post(requrl,data,headers)
    #cookies = conn.cookies.get_dict()
    print(conn.request.headers)
    newheaders = conn.request.headers
    url = "http://xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx.htm" #请求爬虫的url
    print(type(newheaders))
    newheaders = dict(newheaders)
    print(type(newheaders))
    del newheaders['Accept-Encoding']
    print(newheaders)
    req = request.Request(url=url,headers=newheaders)
    rsp = request.urlopen(req)
    html = rsp.read().decode("utf-8","ignore")
    print(html)

因为不把Accepe-Encoding去掉，会报错，或者乱码

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

所以转成字典，再去掉Accepe-Encoding

下面稍微解释一下吧，首先构造登录请求报文，包含用户名，密码，登录成功后获取cookie，使用cookie再去访问你要爬虫的页面，不然还是会被登录页面给拦截掉

能抓到你想访问的页面，接下来想干什么都可以了

关于cookie，其实你也可以手动F12看一下，Network里，Headers里有一个Request Headers，其中最重要的就是你的cookie，保存了你本次登录的所有信息，每次重新登录都会改变

猜你喜欢

转载自blog.csdn.net/ssjdoudou/article/details/83412751

python3 urllib爬虫，你只需要看这一篇就够了

想学习Python网络爬虫？只需要这一篇文章就够了

使用IDEA在外网配置Maven，你只需要看这一篇就够了！

Javascript 中的「上下文」你只需要看这一篇

关于软件测试，你只需要看这一篇文章即可！

学习Python3 进程，这一篇就够了

学习Python爬虫的利器xpath，看这一篇就够了！

理解 Python 装饰器看这一篇就够了

Python中计时，看这一篇就够了

Python操作MongoDB看这一篇就够了

学习 Python 看这一篇就够了！

Python 虚拟环境看这一篇就够了

理解Python 装饰器看这一篇就够了

Python：基本语法看这一篇就够了

Python装饰器看这一篇就够了

DNS详解 (只需要这一篇就够了!!)

python3 urllib

Python爬虫案例解析：五个实用案例及代码示例（学习爬虫看这一篇文章就够了）

搞定 Docker 容器技术与常用命令只需要看这一篇文章

python3 爬虫

python3爬虫

python3 爬虫（一）--初识urllib

弄懂 Docker 你只需要读这一篇就够了

最全AltertDialog 你只需要这一篇就够了

关于Kotlin语法，你只需要这一篇就够了！

Python网络爬虫之WMI：深入探索Windows管理接口（学习WMI，看这一篇就够了）

Python爬虫入门这一篇就够了

python3爬虫（一）

Python3 入门，看这篇就够了

Python3 的urllib实例

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)