爬虫_百度贴吧图片 - 代码天地

爬虫_百度贴吧图片

其他 2020-02-19 10:34:57 阅读次数: 0

# https://tieba.baidu.com/p/5815297430
import re
import urllib.request

#1.发送请求，获取html
def getHtmlContent(url):
    page=urllib.request.urlopen(url)
    return page.read().decode('utf-8')
#2.从html中解析出图片url
def getJPGS(html):
    #创建正则
    jpgReg=re.compile('<img class="BDE_Image".*?src="(.*?\.jpg)".*?>')
    jpgs=re.findall(jpgReg,html)
    return jpgs

#3.用图片url保存成文件名
def downloadJpgs(imgurl,filename):
    urllib.request.urlretrieve(imgurl,filename)

#4.批量下载图片，保存在当前目录文件夹下
def batchDownloadJPGs(imgUrls,path='杨幂/'):
    # 用于给图片命名
    count=1
    for url in imgUrls:
        downloadJpgs(url,''.join([path,'{0}.jpg']).format((count)))
        print('下载完成第{}张图片'.format(count))
        count=count+1

#5.函数回调
def download(url):
    html=getHtmlContent(url)
    jpgs=getJPGS(html)
    batchDownloadJPGs(jpgs)

#定义主函数
def main():
    # url='https://tieba.baidu.com/p/5815297430'
    url='http://tieba.baidu.com/p/5814412543'
    download(url)

if __name__=='__main__':
    main()

下载完成第1张图片
下载完成第2张图片
下载完成第3张图片
下载完成第4张图片
下载完成第5张图片
下载完成第6张图片
下载完成第7张图片
下载完成第8张图片
下载完成第9张图片
下载完成第10张图片
下载完成第11张图片
下载完成第12张图片
下载完成第13张图片

发布了76 篇原创文章 · 获赞 23 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_39309652/article/details/104366576

爬虫_百度贴吧图片

python爬虫爬取百度贴吧图片

简单爬虫，爬去百度贴吧图片

百度贴吧帖子图片爬虫

爬虫实现百度贴吧的图片爬取

爬虫-百度贴吧

百度贴吧爬虫

[python]百度贴吧爬虫

[GO]百度贴吧的爬虫

百度贴吧_爬虫

Python爬虫-百度贴吧

学习笔记（爬虫）：爬取百度贴吧，美女吧图片

百度贴吧获取某个吧的全部图片

python 爬虫（一）爬取百度贴吧图片

Python-简单的爬虫案例（百度贴吧-图片）

爬虫网易LOFTER图片（适用于类似网页，如百度贴吧）

使用XPath的爬虫,百度贴吧图片下载

【Python】百度贴吧图片的爬虫实现（努力努力再努力）

爬虫--百度贴吧每一页中的图片

爬虫小案例爬取百度贴吧杨幂图片 xpath 美丽汤

Python实现简单爬虫功能--批量下载百度贴吧里的图片

实战python 爬虫爬取百度贴吧图片

Python爬虫学习笔记二：百度贴吧网页图片抓取

爬虫小程序之爬取百度贴吧图片

python爬虫爬取百度贴吧图片，requests方法

百度贴吧

Python爬虫之百度贴吧

Python爬虫实战：百度贴吧帖子

利用爬虫爬取百度贴吧内容

3-百度贴吧爬虫

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)