爬虫简易入门代码-爬取简单网页图片 - 代码天地

爬虫简易入门代码-爬取简单网页图片

其他 2018-11-07 12:54:54 阅读次数: 0

# -*- coding: utf-8 -*-
"""
Created on Mon Jul 9 22:12:07 2018

@author: name
"""

#!/usr/bin/env Python3

# -*- encoding:utf-8 *-*

'''@author = 'Appleyk' '''

'''@time = '2017年9月23日11:42:32' '''

from urllib import request

import re #使用正则表达式

def getResponse(url):

#url请求对象 Request是一个类

url_request = request.Request(url)

#print("Request对象的方法是：",url_request.get_method())

#上下文使用的对象，包含一系列方法

#url_response = request.urlopen(url) #打开一个url或者一个Request对象

url_response = request.urlopen(url_request)

'''

geturl()：返回 full_url地址

info(): 返回页面的元(Html的meta标签)信息

<meta>：可提供有关页面的元信息（meta-information），比如针对搜索引擎和更新频度的描述和关键词。

getcode(): 返回响应的HTTP状态代码

100-199 用于指定客户端应相应的某些动作。

200-299 用于表示请求成功。 ------> 200

300-399 用于已经移动的文件并且常被包含在定位头信息中指定新的地址信息。

400-499 用于指出客户端的错误。 ------> 404

500-599 用于支持服务器错误。

read(): 读取网页内容，注意解码方式(避免中文和utf-8之间转化出现乱码)

'''

return url_response #返回这个对象

def getJpg(data):

jpglist = re.findall(r'src="http.+?.jpg"',data)

return jpglist

def downLoad(jpgUrl,n):

#request.urlretrieve(jpg_link, path)

try:

request.urlretrieve(jpgUrl,'%s.jpg' %n)

except Exception as e:

print(e)

finally:

print('图片%s下载操作完成' % n)

http_response = getResponse("https://www.huxiu.com/article/251582.html") #拿到http请求后的上下文对象(HTTPResponse object)

#print(http_response.read().decode('utf-8'))

data = http_response.read().decode('utf-8')

#print(data)

global n

n = 1

L = getJpg(data)

for jpginfo in L:

print(jpginfo)

s = re.findall(r'http.+?.jpg',jpginfo)

downLoad(s[0],n)

n= n +1

猜你喜欢

转载自blog.csdn.net/m0_37756557/article/details/80978376

爬虫简易入门代码-爬取简单网页图片

Python爬虫入门——爬取网页图片

使用Python爬虫爬取简单网页（Python爬虫入门）

【爬虫】爬取网页图片

python3爬虫爬取网页图片简单示例

python爬虫入门（1）简单爬取网页源码

简易爬虫--360图片爬取

爬虫入门（三）——动态网页爬取：爬取pexel上的图片

node：爬虫爬取网页图片

Python——网络爬虫（爬取网页图片）

python爬虫爬取网页图片

python爬虫：批量爬取网页图片

爬虫基本流程及简单爬取网页

node js简单爬取网页图片

python爬虫-简单的图片爬取实现

简单爬虫之爬取网站图片

python爬虫-爬取简单的图片

Python 网页爬虫爬取网页图片demo

python 爬虫入门--图片爬取

图片爬虫工具，可以爬取指定网页的图片

网页图片爬虫工具——从谷歌必应上爬取图片

爬虫快速入门——简单爬取数据

python爬取网页（简易）

python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例

python爬虫——利用requests库BeautifulSoup简单爬取网页上照片—代码完善

爬取网页图片

爬取妹子图片（简单入门）

python3爬虫之二：爬取网页图片

爬虫爬取动态网页下载图片

爬虫--爬取网页图片--bs4

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)