python(1)-实现简单的图片爬虫 - 代码天地

python(1)-实现简单的图片爬虫

其他 2018-10-31 08:51:28 阅读次数: 0

版权声明：本文博主原创，有需要请联系我。 https://blog.csdn.net/myGFZ/article/details/78906961

因为最近在做课程设计，要用python实现网络图片的爬虫，所以特地记录下学到的东西及遇到的坑。

首先，代码来自：

https://www.cnblogs.com/mqxs/p/7771835.html

具体如下：

import re
import urllib.request

# ------ 获取网页源代码的方法 ---
def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

# ------ getHtml()内输入任意帖子的URL ------
html = getHtml("https://tieba.baidu.com/p/5352556650")
# ------ 修改html对象内的字符编码为UTF-8 ------
html = html.decode('UTF-8')

# ------ 获取帖子内所有图片地址的方法 ------
def getImg(html):
    # ------ 利用正则表达式匹配网页内容找到图片地址 ------
    reg = r'src="([.*\S]*\.jpg)"'
    imgre = re.compile(reg);
    imglist = re.findall(imgre, html)
    return imglist

imgList = getImg(html)
imgName = 0
for imgPath in imgList:
    # ------ 这里最好使用异常处理及多线程编程方式 ------
    try:
        f = open('D:\\Temp\\'+ str(imgName)+".jpg", 'wb')
        f.write((urllib.request.urlopen(imgPath)).read())
        print(imgPath)
        f.close()
    except Exception as e:
        print(imgPath+" error")
    imgName += 1

print("All Done!")

这是一段很简单的代码，然后只需要把其中的url改成自己想要爬去的网站就可以了。
但是我遇到了一些问题：

urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:777)>

主要的问题就是

SSL: CERTIFICATE_VERIFY_FAILED

所以解决这个问题的方法来自于这里：

https://stackoverflow.com/questions/27835619/urllib-and-ssl-certificate-verify-failed-error

具体做法是在代码中添加这两行：

import ssl

ssl._create_default_https_context = ssl._create_unverified_context

然后问题纠结了，并且顺利实现了网络图片的爬取。

猜你喜欢

转载自blog.csdn.net/myGFZ/article/details/78906961

python(1)-实现简单的图片爬虫

python爬虫-简单的图片爬取实现

python3实现简单图片爬虫

基于Python实现的爬虫与简单图片处理

Python简单图片爬虫

简单爬虫实现1

Python实现一个简单的图片爬虫

python爬虫简单网页图片

Python实现简单的爬虫

python 实现简单爬虫

python实现简单爬虫

Python 实现简单的爬虫

Python爬虫学习笔记(1)_豆瓣电影Top250(1)简单的图片爬取

python爬虫.1.简单的网页爬虫

实现简单的python爬虫功能

使用python实现简单爬虫

【Python】简单网络爬虫实现

基于python爬虫的简单实现

关于python实现简单爬虫

【一】，python简单爬虫实现

python实现简单爬虫功能

python简单实现网络爬虫

python实现简单的爬虫功能

python爬虫-简单使用xpath下载图片

python爬虫-爬取简单的图片

1行Python代码下载图片，爬虫从未如此简单，百度看了都害怕

1行Python代码下载图片，爬虫从未如此简单，某度看了都害怕

python爬虫篇1：爬妹子图片

Python实现简单爬虫功能--批量下载百度贴吧里的图片

python爬虫爬取图片的简单步骤和实现代码

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)