python -又一次爬虫练习（爬取LOL所有的英雄头像） - 代码天地

python -又一次爬虫练习（爬取LOL所有的英雄头像）

其他 2020-09-13 10:13:54 阅读次数: 0

python -又一次爬虫练习（爬取LOL所有的英雄头像）

目标网站：https://lol.qq.com/data/info-heros.shtml#Navi

一开始我尝试用requests来get网页源代码，结果发现不管用。
查看一下源代码，发现

在这里插入图片描述 原来全部是用JS脚本动态加载出来的，直接在源码里面找是找不到的。

这就要祭上我们的 Web kit 了

Web kit的安装与使用请看上一篇：https://blog.csdn.net/weixin_44823747/article/details/108173246

直接上代码

源码：

# coding=utf-8

import re
from urllib.request import urlopen
import os.path
import sys
from PyQt4.QtWebKit import *
from PyQt4.QtGui import *
from PyQt4.QtCore import *


class Render(QWebPage):  # 用来渲染网页,将url中的所有信息加载下来并存到一个新的框架中
    def __init__(self,url):
        self.app = QApplication(sys.argv)
        QWebPage.__init__(self)
        self.loadFinished.connect(self._loadFinished)
        self.mainFrame().load(QUrl(url))
        self.app.exec_()
    def _loadFinished(self, result):
        self.frame = self.mainFrame()
        self.app.quit()


#创建images文件夹
images_dir = 'images/'
if not os.path.exists(images_dir):
    os.mkdir(images_dir)

url = 'https://lol.qq.com/data/info-heros.shtml#Navi'
r = Render(url)

#得到经过渲染的网页
html = r.frame.toHtml()


#截取主体部分
body_search = re.search(r'<ul id="jSearchHeroDiv" class="imgtextlist">([\s\S]+?)</ul>.*?',html)
body = body_search.group(1)

#获取图片链接和对应英雄名
hero = re.findall(r'<img src="(.*?)" alt="(.*?)\s(.*?)">.*?',body)


#写入图片
for i in hero:
    name = i[1] + '_' + i[2]
    print("正在下载"+name)
    image = urlopen('http:' + i[0])
    with open('images/'+name+'.png','wb') as f:
        f.write(image.read())

print("----下载完成----")

发现还挺简单的，也就三四十行代码

在这里插入图片描述
简简单单。。。

爬取所有物品也是同样的原理，这个代码改一下就能实现，由于本人比较懒，所以就不搞了。。。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_44823747/article/details/108174467

python -又一次爬虫练习（爬取LOL所有的英雄头像）

Python爬虫爬取LOL所有英雄皮肤

Python | 用Python爬取LOL所有的英雄信息以及英雄皮肤

python爬虫工程师成长之路十 selenium+phantomjs+request爬取lol所有英雄头像和装备图片

【爬虫】-爬取LOL所有英雄图片和皮肤图片（使用Python2）

python爬取lol所有英雄皮肤和英雄的语音包

[python爬虫]爬取英雄联盟所有英雄数据并下载所有英雄皮肤

Python ---- 爬虫爬取LOL英雄皮肤图片

python爬虫——记一次前所未有的经历（爬取魔方格作文）

Python爬虫爬取CSDND首页的所有的文章

python爬取opgg的LOL英雄数据

python爬虫练习--爬取所有微博

Python 获取LOL所有英雄的传说

python爬虫--一次爬取小说的尝试

Python3爬虫使用requests爬取lol英雄皮肤

python3爬虫系列之使用requests爬取LOL英雄图片

【python爬虫系列】12.实战一爬取北京地区所有的房租信息

python爬取英雄联盟所有皮肤

Python爬虫—爬取某网站上面所有的世界港口信息数据

python练一练——爬取LOL全英雄及皮肤图片

python爬虫-20行代码爬取王者荣耀所有英雄图片，小白也轻轻松松

Python3，为了“娑娜“，我花费3分钟把lol所有的英雄都下载了。

python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制

python爬取英雄联盟官网，获取所有英雄与皮肤！

python爬虫练习之爬取豆瓣读书所有标签下的书籍信息

python - 记录一次爬虫练习

python爬虫58同城（多个信息一次爬取）

Python爬虫爬取网页上的所有图片

python爬虫实例练习：批量爬取头像图片并保存到磁盘

python3.5爬取王者荣耀官网所有英雄的皮肤

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)