PythonScript_004_正则匹配_抓取静态网页(内涵吧)的图片 - 代码天地

PythonScript_004_正则匹配_抓取静态网页(内涵吧)的图片

其他 2019-03-03 15:00:35 阅读次数: 0

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib.request
import random
import re # 正则库
'''
正则匹配-抓取静态网页(内涵吧)的图片
Python3.7.0
'''
class Spider:
    def __init__(self):
        # 初始化起始页位置
        self.page = 2
        # 开关，为True继续爬去
        self.switch = True

    def loadPage(self):
        '''
            作用:下载页面
        '''
        url = "https://www.neihan8.com/mm/index_" + str(self.page) + ".html"
        headers = {"User-Agent" : "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11"}
        request = urllib.request.Request(url, headers = headers)
        response = urllib.request.urlopen(request)

        # 获取Html源码字符串
        html = response.read().decode("utf-8")
        # print(html)

        # 创建正则表达式的匹配规则对象，\s表示空格 re.S表示匹配全文、re.I表示忽略大小写,返回正则表达式的对象
        patter = re.compile('<a\sclass="img"\shref="/mm/(.*?).html">\s<img\ssrc="(.*?)"></a>', re.S)

        # 匹配数据，findall返回的是一个列表
        content_list = patter.findall(html)

        for list in content_list:
            print(list[1])
            self.download_web_image(list[1])

    def download_web_image(self, url):
        '''
            作用:下载图片到本地
        '''
        name = random.randrange(1, 10000000000)
        full_name = str(name) + '.jpg'
        urllib.request.urlretrieve(url, full_name)

    def startWork(self):
        '''
            作用:控制爬虫运行
        '''
        while self.switch:
            command = input("如果继续爬取，请按回车（退出输入quit）")
            if command == "quit":
                self.switch = False
                break
            self.loadPage()
            self.page += 1
        print("谢谢使用!")

if __name__ == "__main__":
    picSpider = Spider()
    picSpider.startWork()

猜你喜欢

转载自blog.csdn.net/weixin_40022980/article/details/84797480

PythonScript_004_正则匹配_抓取静态网页(内涵吧)的图片

爬取贴吧图片（静态网页）【bs解析网页+re正则匹配】

Python爬虫学习---正则抓取内涵段子

爬虫 python 正则匹配保存网页图片

JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片

java 抓取网页图片

爬虫抓取网页图片

python re正则匹配网页中图片url地址

Python爬虫学习笔记二：百度贴吧网页图片抓取

php 抓取网址图片正则表达匹配图片知识点

爬虫学习----静态网页抓取

网页结构、使用urlopen()爬取网页内容、常用正则表达式简介、使用正则表达式匹配抓取网页内容、使用BeautifulSoup匹配抓取网页内容

正则匹配图片

php正则匹配图片

爬虫-简单抓取网页图片

抓取网页上的图片(一)

用python抓取网页的图片

正则表达式——抓取网页中的http及网络图片

【爬虫入门】【正则表达式】抓取白敬亭贴吧某个帖子下的图片2.0

python网络爬虫（1）静态网页抓取

C#正则表达式匹配网页中的图片的代码

php正则抓取图片(抓取图片403处理)

静态网页正则表达式爬取图片并保存

使用python实现简单网页图片抓取

Python爬虫之网页图片抓取

python爬虫-- 抓取网页、图片、文章

Python3 抓取网页中的图片

selenium + chromedriver将网页抓取为图片

java使用jsoup抓取网页图片

java 利用jsoup进行网页图片抓取

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

事务隔离级及脏读、幻读和不可重复读

rtos：zephyr同步信号量

把对象转换为JSON格式的数据

iOS Dev (56) iTunes Store 销售日报更新时间

Failed to start mongod.service: Unit not found;mongodb in unbuntu

Upgrading PHP on CentOS 6.5 (Final)

（四）王道机试指南___排版问题

TensorFlow之手写体识别

xcode xib报错 Safe Area Layout Guide Before IOS 9.0

【LeetCode】76. Minimum Window Substring（C++）

每日归档

更多

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)