Python爬虫案例-下载极客学院图片 - 代码天地

Python爬虫案例-下载极客学院图片

其他 2018-05-24 10:21:45 阅读次数: 1

涉及到的库 re 、requests、urllib、os

安装库 pip install re 、pip install requests ....

Python 解释器：pychram

目的：

1、保存网页源代码

2、Python读取文件加载源代码

3、正则表达式提取图片网址

4、下载图片

步骤：

一、拿到极客学院的网址的URL（百度一下）

　　http://www.jikexueyuan.com/

二、通过requests库，获取到极客学院首页的源代码

　　requests.get(url)

三、将获取的源代码，写入本地文件中

　　1、先创建一个文本（txt文件）

　　2、通过open 打开文件

　　3、将源代码写入到文件中

　　4、释放资源，关闭文件

	file_name='daima.txt'
	file = open(file_name,'w')
	file.write(txt)
	file.close()
　5、查看是否写入成功

	打开daima.txt文件，查看文件中是否跟极客学院首页的源代码一致。

四、从文件中读取源代码，并通过正则表达式，进行模糊搜索，获取到图片的路径

 	file = open(file_name,'r')

	files = file.read()

	#获取首页中关于职业模块的图片，先通过正则获取整个职业模块，然后再获取单一图片的url

	images = re.findall('<div class="zhiye"(.*?)</div>',files,re.S)[0]
	image_list = re.findall('<img src="(.*?)"',images,re.S)
	for i in image_list:

		print i
    	file.close()

五、通过获取到的图片url，将图片下载到本地，并以图片url的进行命名下载

	https://jiuye-res.jikexueyuan.com/zhiye/showcase/attach-/20171101/b12ae422-fd63-4b7d-a0d3-13c3ab4479c5.jpg

	1、通过split进行切片获取到图片的后缀（b12ae422-fd63-4b7d-a0d3-13c3ab4479c5.jpg）

	2、下载路径

	3、图片下载

	lista = num.split('/')
	a=lista.pop()
	path = os.path.join('image',a)
	urllib.urlretrieve(num,path)

代码：https://gitee.com/weight_ting/Python_case_jikexueyuan_downimage/tree/master/jkxy1

猜你喜欢

转载自www.cnblogs.com/ting0623/p/9081341.html

Python爬虫案例-下载极客学院图片

python爬虫下载极客学院视频

Python简单网页爬虫——极客学院视频自动下载

极客学院课程爬虫

python 爬虫实例----采集''极客学院"课程页面数据

python 爬取极客学院视频

python极客学院 pycharm基本调试

python爬取极客学院

极客学院推荐

BeautifulSoup编写PYTHON爬虫案例-下载MM图片

python 极客学院正则表达式

python爬取极客学院课程信息实例

极客学院 git教程

爬虫案例：图片下载器

python爬虫图片下载

Python爬虫requests 下载图片

python 爬虫批量下载图片

极客学院 Docker全面解读零基础实战(云盘下载)

【备忘】最新极客学院大数据工程师视频教程下载

【备忘】极客学院VIP教程postgresql教程全集视频教程下载

python 爬虫--下载图片,下载音乐

python爬虫三大解析数据方法：正则及图片下载案例

python爬虫之爬取案例网页ajax请求的数据2之跳转url下载图片

python爬虫之Scrapy框架，基本介绍使用以及用框架下载图片案例

极客学院的前端课程（四）

极客学院的前端课程（五）

极客学院的前端课程（六）

极客学院的前端课程（七）

极客学院的前端课程（三）

极客学院的前端课程（二）

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)