H漫网站破解+爬虫+整合网站实例

H漫表示韩漫,请勿遐想。

 

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

1 源起

2 接口分析

3 程序设计

4 网站呈现

5 部署运行

6 后续

1 源起

最近在某个社交媒体上看到个韩漫网站,点进去看了几章,感觉还不错,无奈就是前几章都是免费,再看就需要掏金币,然后搜索了漫画,发现此类漫画归根结底都是盗取的一个叫顶通的韩国网站的资源。

习惯性的F12调开network,意外的发现漫画数据是通过接口json格式传输的!

通过分页获取漫画章节数据

每一个章节的数据中都有所有的漫画数据,这意味着可越过会员机制观看!

这种情况简直就是告诉我快来爬…

设计思路就是
1.首先通过程序将网站数据爬取到数据库中
2.然后在将漫画的图片爬取到本地中
3 最后开发简单的预览网站以便自己随时浏览

2 接口分析

这种api接口的数据算是最简单的一种,简单方便,直接分析接口就行了

  • 访问接口的时候因为是通过程序访问时需要注意cookies的,一般这种情况直接从浏览器中原样复制一份数据设置到程序中即可

  • 找到可以获取全部漫画数据的接口,通过观察发现,底部菜单的分类是一个分页获取所有漫画的接口

  • 所有漫画抓取下来,通过循环分页获取将所有的数据查询下来存入数据库的漫画表 cartoon

cartoon表

  • 然后再通过循环访问cartoon表,通过循环分页获取将所有的章节数据查询下来存入数据库的漫画表 chapter

cartoon表

cartoon表

爬虫的过程中,对我们的程序进行适当的延时,调用sleep()函数。这样降低访问网页的速度,防止程序被看门狗屏蔽

3 程序设计

接下来就是最重要的爬取图片逻辑…

考虑后续章节的更新可以增加字段用以拓展
比如在cartoon表中增加 mhstatus ,lock 和 finish 字段

整体流程,简单画了一下

单次流程,简单画了一下

就这样写完程序第一次爬取就用了大概三天的时间,中间有关机休息,总共是爬取了320本漫画,11702个章节
约40G的资源

40G条漫资源

40G条漫资源

4 网站呈现

漫画都是图片目录观看很不方便,因此需要开发一个简单的网站,这个对于一个程序员应该说都不难,因为是自己看所以不需要注册 不需要会员 更不需要金币和广告,直接运行在自己家的电脑上一个网址就可以
于是就第一版的网站不到一个小时就搞出来了,真的是简单暴力!点开即看!

然而真的很简单吗?实际体验中发现许多问题了,即使仅自己看的网站都是需要打磨,需要下功夫的,主要问题有

  • 1 没有观看记录,每次都需要翻开自己上次看到哪里了
  • 2 没有自动翻页
  • 3 看过看完的作品始终在前排呈现每次还是都要翻
  • 4 没有下一章上一章 需要后退点下一章

于是接着开干,一一解决了以上几个问题

  • 漫画分类有 看过 未看 收藏三个分类,回看直接会看上一次看到的章节

  • 在观看页面增加 top button按钮,自动滚屏,上一张下一章功能

搞到这里发现为了看个漫画我费了多大劲!

  • 然而还没完,在实际浏览中真的有很漂亮的图想保存下来,如果另存为的话是不行的,因为这是条漫,你只想截取一个画面,但有可能是好几个对话的内容都被下载了,怎么办呢?继续搞!

思路是通过在图片上定位两个点,然后通过两个点的高度与图片的长度进行比例计算然后传到后台,在后台进行图片比例裁剪,直接保存到服务器上,多说无益直接上图看效果

通过点击两次点击 绿线开始 红线结束,即可将区域内的图片单独截取下来

收藏图库中所截取的图片和页面截取区域相差不大,可以接受

5 部署运行

一开始是用家式电脑搞的,但是实际使用中不能老开着电脑当服务器,主要是对电脑的损耗,其次是费电啊!(其实主要是费电,穷),所以就需要一个功耗低的方案,我一开始想到的是树莓派,但是树莓派也是需要花钱买的!于是我重新启用了我大学时候的破电脑,2G内存开个浏览器都会卡的那种,不过这种性能做个网页服务还是可以的。开搞!

  • linux系统,我安装的centos 7 最小化安装,连可视化界面都不要的那种方案:一切为了节省性能
  • 用网线连接网络,安装网络驱动,安装ntfs驱动,安装数据库,安装java坏境,保证笔记本可以无线ssh登录,读取移动硬盘即可
  • 复制图片资源到笔记本
  • 复制网站程序到笔记本,将程序添加到自启动列表中,到此一切结束,大概花费了一周时间,到此就拥有了一个私人漫画网站!

6 后续

后来为了保证散热我把笔记本的后壳敲调一大块,为了轻便还把屏幕给卸掉,所有无关的配件能拆就拆,最后想说2G内存跑起来还是可以的

有时候图片会丢失,请关注个人博客备份地址,

https://cookanger.top/2020/02/12/spider/korea_cartoon/

发布了7 篇原创文章 · 获赞 30 · 访问量 6万+

猜你喜欢

转载自blog.csdn.net/u010034154/article/details/104286790