【零基础学爬虫】用代理抓取微信文章 - 代码天地

【零基础学爬虫】用代理抓取微信文章

编程语言 2019-04-20 15:30:50 阅读次数: 0

简介

搜狗已经做了一层微信文章的列表，微信公众号列表，但是搜狗自己做了一些反爬虫措施，本文使用代理池抓取微信公众号文章

目标站点分析

目标站点：搜狗对微信文章的爬取

分析发现，地址栏中的地址中很多参数可以省略掉，最终的访问简洁地址：
https://weixin.sogou.com/weixin?query=java&type=2&page=5&ie=utf8
改变query和page即可
当频繁请求的时候，又有要求输入验证码，并且是需要输入三次验证码，ip检测异常时返回的状态码是302
另外，在不登录的时，只能查看100条搜索结果

爬取的流程框架

get请求注意分享头部的请求参数

在请求的时候我们也需要构造对应的参数字典，然后使用urlencode将字典参数转为url即可
使用cookie，保持登录。cookie和Headers都是放在headers：Cookie、Host、User-Agent，另外在get请求时需要设置不允许redirects，否则我们返回302代码
当返回302状态码时，使用上一篇文章介绍的代理池继续爬取文章
使用代理时直接在get中设置代理参数即可
微信本身链接文章没有反爬虫措施，不用使用代理
cookie存在过期时间，如果在抓取过程中发现无法获取登录内容的话，需要重新在浏览器中登录，获取cookie

源码和数据

数据

源码
扫描下方二维码，发送关键词“微信”即可获取本文的完整源码和详细程序注释
扫码关注，及时获取更多精彩内容。（博主今日头条大数据工程师）

公众号专注：互联网求职面经、java、python、爬虫、大数据等技术、海量资料分享：公众号后台回复“csdn文库下载”即可免费领取【csdn】和【百度文库】下载服务；公众号后台回复“资料”:即可领取5T精品学习资料、java面试考点和java面经总结，以及几十个java、大数据项目，资料很全，你想找的几乎都有

猜你喜欢

转载自blog.csdn.net/liewen_/article/details/89417960

【零基础学爬虫】用代理抓取微信文章

用代理抓取微信文章

python爬虫知识点总结（十三）使用代理处理反扒抓取微信文章

抓取微信文章：使用代理来处理反爬虫措施

使用redis所维护的代理池抓取微信文章

Python微信文章抓取转PDF

python实战笔记之（6）：使用代理处理反爬抓取微信文章

python使用代理处理反爬抓取微信文章

【零基础学爬虫】分析Ajax，抓取今日头条街拍美图

代理爬取微信文章

Python 爬虫爬取微信文章

零基础如何学爬虫技术？

【零基础学爬虫】PyQuery详解

【零基础学爬虫】使用Flask+Redis维护代理池

新榜微信文章抓取客户端（APSpider）

微信文章抓取：微信公众号文章抓取常识之临时链接、永久链接

【零基础学爬虫】爬虫基本原理

微信文章测试

导出微信文章

零基础学python用哪本书好,python零基础需要学多久

Python零基础入门爬虫原理与数据抓取(一)-通用爬虫和聚焦爬虫

【零基础学爬虫】Selenium库详解

【零基础学爬虫】requests库详解

【零基础学爬虫】Urllib库的使用

【零基础学爬虫】BeautifulSoup库详解

【零基础学爬虫】正则表达式

抓取微信文章2000篇和无限抓取百度词条（标题和简介）

零基础学python用哪本书好,零基础python入门要多久

【零基础学爬虫】爬虫实战：爬取京东零食

完全零基础小白该如何学爬虫？大牛总结最适合零基础的爬虫教程！

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)