python抓取微信公众号新闻文章图片 - 代码天地

python抓取微信公众号新闻文章图片

其他 2020-03-08 10:29:58 阅读次数: 0

在看公众号新闻的时候，总会有一些有用的PPT图片啥的想保存下来。

那么用python如何抓取来，简单介绍一下。

比如这个网址，https://mp.weixin.qq.com/s/-rj91sCpeaURAU5hWe_sjQ

里面有20多张PPT的截图。

首先，打开网页的源代码。可以看到，data-src后面的URL就是我们需要的图片的地址。

那么，我们可以通过正则表达式，把所有的图片链接找出来，存在List里面，然后循环下载它们。

Python代码如下。

import urllib.request
import re
import os
import urllib
#根据给定的网址来获取网页详细信息，得到的html就是网页的源代码
def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html.decode('UTF-8')

def getImg(html):
    reg = r'data-ratio="0.5625" data-s="300,640" data-src="(.+?)" data-type="jpeg"'  #括号里面就是我们要取得的图片网址
    imgre = re.compile(reg)
    imglist = imgre.findall(html)#表示在整个网页中过滤出所有图片的地址，放在imglist中
    x = 0
    path = 'D:\\pyCode\\pic'
    # 将图片保存到D:\\test文件夹中，如果没有test文件夹则创建
    if not os.path.isdir(path):
        os.makedirs(path)
    paths = path+'\\'      #保存在test路径下

    for imgurl in imglist:
        urllib.request.urlretrieve(imgurl,'{0}{1}.jpg'.format(paths,x))  #打开imglist中保存的图片网址，并下载图片保存在本地，format格式化字符串
        x = x + 1
    return imglist
html = getHtml("https://mp.weixin.qq.com/s/-rj91sCpeaURAU5hWe_sjQ")#获取该网址网页详细信息，得到的html就是网页的源代码
print (getImg(html)) #从网页源代码中分析并下载保存图片

正则表达式写的条件比较多，是为了能够精准匹配。

运行后，图片就会保存到你设定的path里面了。

发布了90 篇原创文章 · 获赞 3 · 访问量 21万+

私信关注

猜你喜欢

转载自blog.csdn.net/sunnyboychina/article/details/103751187

python抓取微信公众号新闻文章图片

抓取微信公众号文章

关于微信公众号文章抓取

批量抓取微信公众号的文章

如何使用python3抓取微信公众号文章，了解一下？

python利用fiddler抓取微信公众号文章及标题（简单易懂）

微信文章抓取：微信公众号文章抓取常识之临时链接、永久链接

python爬取微信公众号文章（包含文章内容和图片）

微信小程序点击公众号文章图片跳转公众号文章

python_爬虫_微信公众号抓取

Python 抓取微信公众号账号信息

Python项目实战：抓取微信公众号账号信息

Python抓取微信公众号收费漫画（挺好看的）

Java 爬取微信公众号文章（文字 + 图片）

python爬虫(17)爬出新高度_抓取微信公众号文章（selenium+phantomjs）

微信公众号实时抓取

用python爬取微信公众号文章

python3爬取微信公众号文章

【爬虫】python爬取微信公众号文章

Python爬虫实现微信公众号文章批量下载

python爬取微信公众号文章的方法

python下载微信公众号相关文章

Python爬虫实现的微信公众号文章下载器

如何使用 Python 爬取微信公众号文章？

python 爬取微信公众号历史文章

python微信公众号文章爬虫（上）

【Python爬虫】下载微信公众号图片

python 微信公众号开发 django 实现上传图片

爬取微信公众号文章

微信公众号搜索文章

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)