py爬虫姿势 - 代码天地

py爬虫姿势

其他 2019-03-03 19:41:22 阅读次数: 0

基础包括

head{}字典存取要传入的包头文件列如可以认为是通用数据头具体的数据头应抓包获得

headers = {
'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:39.0) Gecko/20100101 Firefox/39.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en-US,en;q=0.5',
'Accept-Encoding': 'gzip, deflate',
'Connection': 'keep-alive'}

模拟登陆

该数据是视觉中国进行模拟登陆

先在视觉中国输入错误的账号密码获取到一个发送值可以调用浏览器页面的检查功能发现
获取值为{'username': "*****", 'password': "*******", 'captcha': "", 'lgt': "0", 'token': ""}

命名为date

使用 post()函数传入登陆地址，实际账号密码，和头数据。

编写函数测试是否返回了cookies如果没有返回值就进行抓包找到实际发送值并对值进行提取

详见https://blog.csdn.net/churximi/article/details/50917322 我是从这里学习的

def login():
s = requests.session()
loginURL = "https://www.vcg.com/ajax/login/submit" # POST发送到的网址
login = s.post(loginURL, data = date, headers = headers) # 发送登录信息，返回响应信息（包含cookie）
cookies = login.cookies
return cookies

获取网页

get()函数获取网址，传入url or urls ,heasders ,超时时间 html的值是网页的

table获取的是html里获取的相对应的标签内部的值，如果无对应会返回None并且find_all()会提示错误

html=requests.get('https://18moe.com/category/game',headers=headers,timeout=5).text
table=BeautifulSoup(html,'lxml').find('select',{'class','poi-pager__item_middle_select poi-form__control'})

使用代理

暂未使用等待补充

猜你喜欢

转载自www.cnblogs.com/mo-zixuan/p/10466967.html

py爬虫姿势

py爬虫 —— py爬虫requests

jupyter正确使用py文件的姿势

(PY爬虫03)爬虫初识

Python爬虫的N种姿势

Py爬虫项目

【PY爬虫】Request库

Py爬虫学习_requests库

Py爬虫学习_urllib库

Scrapy爬虫-pipeline.py

爬虫-----lagou2.py

爬虫-------lagou1.py

py爬虫task1

Python爬虫：最正确的入门姿势

开发函数计算的正确姿势 —— 爬虫

开发函数计算的正确姿势——爬虫

爬虫工程师怎么学姿势！！！

Python爬虫新姿势：mitmproxy最新的爬虫工具！

爬虫----基础语法及案例 Py-3

爬虫---基础语法及案例 py-2

Py3异步爬虫浅涉

py-02-爬虫比价器

python爬虫(十八)-------------------scrapy piplines.py

[python爬虫]常用user_agent.py

(PY爬虫02) 制定爬虫的学习计划了

py爬虫 —— 三个爬虫的小栗子

【爬虫】在 xpath路径中插入变量的正确姿势

不会python?那就换一种姿势爬虫！Java爬虫技术总结

爬虫（Py2和Py3区别）

Python 爬虫模块py2x与py3x差异

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)