Python爬虫：爬过这些网站，才敢说自己会爬虫！ - 代码天地

Python爬虫：爬过这些网站，才敢说自己会爬虫！

其他 2019-03-24 19:16:06 阅读次数: 0

Python爬虫：爬过这些网站，才敢说自己会爬虫！

摘要：微信、知乎、新浪等主流网站的模拟登陆爬取方法。

网络上有形形色色的网站，不同类型的网站爬虫策略不同，难易程度也不一样。从是否需要登陆这方面来说，一些简单网站不需要登陆就可以爬，比如之前爬过的猫眼电影、东方财富网等。有一些网站需要先登陆才能爬，比如知乎、微信等。这类网站在模拟登陆时需要处理验证码、js 加密参数这些问题，爬取难度会大很多。费很大力气登陆进去后才能爬取想要的内容，很花时间。

这是小编准备的python爬虫学习资料，加群：496248129即可获取！

Python爬虫：爬过这些网站，才敢说自己会爬虫！

是不是一定要自己动手去实现每一个网站的模拟登陆方法呢，从效率上来讲，其实大可不必，已经有前人替我们造好轮子了。

最近发现一个神库，汇总了数十个主流网站的模拟登陆方法：

知乎
微信网页版登录并获取好友列表
Bilibili
Facebook
无需身份验证即可抓取Twitter前端API
微博网页版
QQZone
CSDN
淘宝
Baidu
果壳
JingDong 模拟登录
163mail
拉钩
豆瓣
Baidu2
猎聘网
Github
爬取图虫相应的图片
网易云音乐
糗事百科

这些网站基本采用的是直接登录或者 selenium+webdriver 方式。每一个网站都有完整的模拟登陆代码，拿来就可以用到自己的爬虫中。

下面我们来测试一下。

先说说很难爬的「知乎」，假如我们想爬取知乎主页的 HTML 内容，就必须要先登陆才能爬，不然看不到这个界面。下面来简单梳理一下流程。

Python爬虫：爬过这些网站，才敢说自己会爬虫！

Python爬虫：爬过这些网站，才敢说自己会爬虫！

知乎需要手机号才能注册登陆。为了方便测试，可以随便找个手机号，手机号到哪儿去找呢，两个神网站保护你的隐私 这篇文章里介绍了一个免费电话号码网站，用上面的手机号可以成功注册。

Python爬虫：爬过这些网站，才敢说自己会爬虫！

Python爬虫：爬过这些网站，才敢说自己会爬虫！

顺利登录后就可以进入主页了。

下面，我们用这个库提供的代码来模拟登陆，输出主页 HTML 内容作测试。操作很简单，只需要输入手机号、密码和验证码就可以了。

Python爬虫：爬过这些网站，才敢说自己会爬虫！

成功登陆后，接下来就可以做一些有意思的事了。比如曾有人爬取所有知乎账号的信息，分析了知乎用户群体画像。

是不是有点意思。

再来看看微信。用上面的微信代码可以把全部微信好友信息爬取下来，比如：昵称、性别、地域、个性签名。接着可以分析一下你的朋友圈是什么样的，应该会很有趣。

Python爬虫：爬过这些网站，才敢说自己会爬虫！

还可以爬 B 站：

Python爬虫：爬过这些网站，才敢说自己会爬虫！

还可以爬链家租房信息：

Python爬虫：爬过这些网站，才敢说自己会爬虫！

还有很多实用有趣的内容，就不一一罗列了，感兴趣的话可以试试，最后放上大神的 GitHub 库地址：

https://github.com/CriseLYJ/awesome-python-login-model

不要闷头造轮子，多抬抬头会发现你在做/想做的东西，别人早已经弄好了，拿来用或者参考学习都是件好事。

猜你喜欢

转载自blog.csdn.net/weixin_44138053/article/details/88748277

Python爬虫：爬过这些网站，才敢说自己会爬虫！

不会Python的这几个库，我都不敢说会爬虫

这几个库不会，都不敢说我会 Python 爬虫

不会这几个库，都不敢说我会Python爬虫

王者荣耀算什么？玩过这些游戏的才敢说童年没白过！

理解了这些异常现象才敢说真正懂了TCP协议

不会这些你敢说你会nginx?

搞懂webdriver的底层原理，才敢说自己懂自动化！

python爬虫网站

python爬虫网站图像

记录自己python爬虫的学习

不会这些东东，不敢说你会nginx?

python爬虫(爬取唯品会)

python爬虫教程：python解决网站的反爬虫策略总结

Python爬虫学习笔记(实例：解决网站对爬虫的审查)

Python爬虫实战(5)_面向新闻网站的爬虫

Python爬虫实战-小说网站爬虫开发

反射都不会，还敢说自己会Java？

Python实战：如何隐藏自己的爬虫身份

python 爬虫封装自己的常用方法

Python打造自己的爬虫代理池

那些年，我爬过的北科(四)——爬虫进阶之极简并行爬虫框架开发

Python爬虫——爬取网站的图片

python爬虫爬取网站数据

Python爬虫采集CloudBlog网站的文章

python爬虫：遍历一个网站

python爬虫-代理ip连接网站

python爬虫抓取网站技巧总结

python爬虫-爬取网站图片。

python 爬虫抓取网站img图片

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)