使用python下载网站漫画 - 代码天地

使用python下载网站漫画

其他 2018-08-18 12:53:53 阅读次数: 0

最近想回顾一下七龙珠，结果发现腾讯已经收费，而且是按节收费，无奈看看其他网站，找到了一个网站，可以在线看，但是无法下载，最后决定使用python下载下来

首先要分析网站源码，查看源代码

1~42部的URL是从

http://comic.kukudm.com/comiclist/141/1343/到

http://comic.kukudm.com/comiclist/141/1384/

而每一页的URL是从1.htm到xx.htm

得到每部的网址后，下一步就是看图片的URL

rsp = req.get(url, timeout = 2)   

rsp.encoding = 'utf-8'

print rsp.text

打印出来的漫画图片源码如下：

document.write("<img id=comicpic name=comicpic src='"+server+"kuku3comic3/qlz/vol01/001DM01W3.jpg'>");

可以看出网站源码并不直接图片的源地址，而是需要通过浏览器编译运行才能图片的真实地址，通过F12调试浏览器，得出源地址如下：

多找几个，可以得出漫画的真实网址是http://n5.1whour.com/加对应网页源码的后缀拼接出来的，代码可以这么写

image_pre_url = "http://n5.1whour.com/"



# url http://comic2.kukudm.com/comiclist/141/1343/1.htm

# filename 001.jpg

@retry(stop_max_attempt_number=3, stop_max_delay=10000)

def downloadImg(url, filename):

    print url

    rsp = req.get(url, timeout = 2)   

    rsp.encoding = 'utf-8'

    image_posturl = re.findall("kuku3comic3.*.jpg", rsp.text)

    image_url = image_pre_url + str(image_posturl[0])

这里面的retry是引用了python的retrying模块，可以通过注释的模式设置函数内部重试，还可以设置最大时长

找到了章节网址和每个图片的网址，剩下就是下载了，代码如下

    r = req.get(image_url, stream=True, timeout = 2)

    with open(filename, 'wb') as f:

        for chunk in r.iter_content(chunk_size=1024):

            if chunk:

                f.write(chunk)

                f.flush()

        f.close()

        print 'download finished',image_url

至此，就可以完成漫画下载

猜你喜欢

转载自blog.csdn.net/weixin_39020940/article/details/81153661

使用python下载网站漫画

下载漫画网站图片示例

python 爬虫爬取某网站的漫画

网不好，看个漫画加载半天？教你用Python批量下载网站所有漫画（附源码和视频教程）

python下载所有 XKCD 漫画

python 知音漫客所有漫画下载，付费漫画又如何？

python-selenium模块爬取动态网址实例---------【下载漫画码上面的漫画】

python 下载整个网站

python-web-下载所有xkcd漫画

爬虫漫画网站

使用python抓取网站图片，下载到本地

使用python3批量下载网站图片

漫画批量下载

MIMEI漫画下载

MIMEI漫画无偿下载

MIMEI漫画软件下载

Python爬虫：使用requests和tqdm模块爬取漫画之家漫画数据

使用wget下载整个网站

使用Chrome下载网站视频

漫画网站开发，漫画网站定制，漫画网站建设源码

快看漫画下载|快看漫画app下载

漫画自动下载工具。

Python爬漫画(GUI)

python爬虫十四：selenium模拟浏览器+chrome 批量下载漫画

python风之动漫下载犬夜叉漫画第一卷

【Class 48】【实例】python爬虫实现下载所有 XKCD 漫画

有点无聊，来试试用Python采集下载漫画

好无聊啊~ 来试试用Python采集下载漫画【附原码哟~】

python scrapy爬取皇冠体育源码下载网站数据二（scrapy使用详细介绍）

Python下载速度太慢？使用国内网站速度直接飞起（附安装教程）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)