python爬虫三大解析数据方法：正则及图片下载案例

其他 2018-11-17 07:51:26 阅读次数: 0

基本正则用法回顾

# 提取python
key = 'javapythonc++php'
print(re.findall('python', key)[0])

# 提取hello world
key = '<html><h1>hello world</h1></html>'
print(re.findall('<h1>(hello world)</h1>', key)[0])  # 分组的方法

# 提取170
string = '我喜欢cjv170的身高'
print(re.findall('\d+', string)[0])

# 提取http:// 和 https://
key = 'http://www.baidu.com and https://bjv.com'
print(re.findall('https?', key))  # ?值前面一个字符出现过一次或0次

# 提取hit.
key = '[email protected]'
print(re.findall('h.*?\.', key))  # ?切换贪婪模式

# 提取sas和saas
key = 'saas and sas and saaas'
print(re.findall('sa{1,2}s', key))

# 匹配i开头的行 re.S(单行匹配全部拉通)  re.M(多行匹配)
string = '''fall in love with you
i love you ver much
i love she
i love her'''
print(re.findall('^i.*', string, re.M))

# 匹配全部行
string = '''<div>静夜思
窗前明月光
低头思故乡
</div>'''
print(re.findall('<div>.*</div>', string, re.S))

糗事百科图片下载案例

import requests
import re

url = 'https://www.qiushibaike.com/pic/'

data = requests.get(url=url).text

 # re.S单行处理 把换行看成\n一起匹配
img_list = re.findall('<div class="thumb">.*?<img src="//(.*?)".*?>.*?</div>', data, re.S) 

for url in img_list:
    img_url = 'https://' + url
    img_name = url.split('/')[-1]
    img_data = requests.get(url=img_url).content  # 图片二进制
    with open('糗事百科图片库/'+img_name, 'wb') as f:
        f.write(img_data)

猜你喜欢

转载自blog.csdn.net/weixin_42329277/article/details/84074787

python爬虫三大解析数据方法：正则及图片下载案例

爬虫案例：图片下载器

python爬虫三大解析数据方法：xpath 及爬段子网案例

python爬虫三大解析数据方法：bs4 及爬小说网案例

Jsoup爬虫案例-苏宁易购图片下载

python 高级-- 协程 + 协程案例_ 图片下载

{Python??图片下载}

python爬虫图片下载

Python 图片下载器

python 2.7 图片下载爬虫

Python爬虫打造图片下载器

scrapy爬虫之pipelines图片下载

爬虫_百度图片下载

Java 爬虫基础|图片下载

前端实现图片下载的方法

【Python】 Wget网页图片下载利器

Python3.5 图片下载代码

python 单线程图片下载

图片下载---使用gevent爬数据

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

Python爬虫——使用socket模块进行图片下载

Python 爬虫网页图片下载到本地

第二个爬虫------mzitu图片下载

Scrapy实战之图片下载器爬虫

Android图片下载缓存库picasso解析

python 关于图片下载（有待更新）

Python脚本1:批量获取图片下载到本地

Python写的实时地球图片下载工具

python王者荣耀图片下载：队列多线程模式

Python编写的图片下载器（附完整代码）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)