Hは男ハンマンを表し、空想しません。
Webクローラー(また、Webスパイダー、ウェブロボットとして知られ、FOAFコミュニティの途中で、より頻繁にウェブチェイサーと呼ばれる)、ワールド・ワイド・ウェブのプログラムやスクリプトで自動的にグラブ情報、フォロー一定のルールのようなものです。他のあまり頻繁に使用される名前はアリ、自動インデックス作成、シミュレーションプログラムやワームが含まれます。
1起源
最近、男ハンは、ポイントはいくつかの章に見えたソーシャルメディアサイトで見られ、私はかなり良いと感じるが、残念ながら最初の数章は、あなたがして、掘る金を見て漫画を検索する必要があり、自由であるということであるが、そのような漫画を見つけました最終的な分析では、トップの韓国のウェブサイトと呼ばれるリソースを盗むことです。
F12習慣的なトーンオープンネットワークは、予想外の発見漫画のデータは、インタフェースJSON形式を介して送信されます!
データ取得漫画セクションのページング
各セクション内のデータは、時計へのメンバーのためのメカニズムを超えるすべての漫画データ、手段を持っています!
この状況は、単純にクロールを、是非私に言っています...
デザインアイデアはにある
データベースにデータをクロール1.まずプログラムサイト
ローカルに画像に漫画クロールに続いて2
閲覧に独自のフィーリングの自由の最終的発展のための簡単な3プレビューサイト
2インタフェース分析
このデータAPIインタフェースは、おそらく最も簡単なもの、シンプル、ライン上のインターフェイスの直接分析であります
-
アクセス・インターフェースはプログラムを介してアクセスノートクッキーまでの時間は、のようにブラウザから直接プログラムにデータ・セットのコピーが一般的ケースであるので
-
インターフェイスは、すべての漫画のデータを見つけることができます取得し、観察は、メニューの分類下には、インタフェースのすべてを取得するための漫画のページであること
- 全ての漫画がダウンしてクロールし、データベーステーブルに保存されている漫画のループを介してすべてのデータのクエリページングを降り 漫画のテーブル
漫画のテーブル
- そして、循環によって漫画のテーブルを訪問し、データベースに格納されたデータは、ループテーブル似顔絵ページを下に照会し、すべての章を取得します 章の表を
漫画のテーブル
プロセスの爬虫類は、私たちのプログラム、適切な遅延で、スリープ()関数を呼び出します。このページへのアクセス速度を減少させ、プログラムは、ウォッチドッグが遮蔽されないように
3プログラミング
次のステップは、ロジックをクロールの最も重要な絵です...
考虑后续章节的更新可以增加字段用以拓展
比如在cartoon表中增加 mhstatus ,lock 和 finish 字段
整体流程,简单画了一下
单次流程,简单画了一下
就这样写完程序第一次爬取就用了大概三天的时间,中间有关机休息,总共是爬取了320本漫画,11702个章节
约40G的资源
40G条漫资源
4 网站呈现
漫画都是图片目录观看很不方便,因此需要开发一个简单的网站,这个对于一个程序员应该说都不难,因为是自己看所以不需要注册 不需要会员 更不需要金币和广告,直接运行在自己家的电脑上一个网址就可以
于是就第一版的网站不到一个小时就搞出来了,真的是简单暴力!点开即看!
然而真的很简单吗?实际体验中发现许多问题了,即使仅自己看的网站都是需要打磨,需要下功夫的,主要问题有
- 1 没有观看记录,每次都需要翻开自己上次看到哪里了
- 2 没有自动翻页
- 3 看过看完的作品始终在前排呈现每次还是都要翻
- 4 没有下一章上一章 需要后退点下一章
于是接着开干,一一解决了以上几个问题
- 漫画分类有 看过 未看 收藏三个分类,回看直接会看上一次看到的章节
- 在观看页面增加 top button按钮,自动滚屏,上一张下一章功能
搞到这里发现为了看个漫画我费了多大劲!
- 然而还没完,在实际浏览中真的有很漂亮的图想保存下来,如果另存为的话是不行的,因为这是条漫,你只想截取一个画面,但有可能是好几个对话的内容都被下载了,怎么办呢?继续搞!
思路是通过在图片上定位两个点,然后通过两个点的高度与图片的长度进行比例计算然后传到后台,在后台进行图片比例裁剪,直接保存到服务器上,多说无益直接上图看效果
通过点击两次点击 绿线开始 红线结束,即可将区域内的图片单独截取下来
收藏图库中所截取的图片和页面截取区域相差不大,可以接受
5 部署运行
一开始是用家式电脑搞的,但是实际使用中不能老开着电脑当服务器,主要是对电脑的损耗,其次是费电啊!(其实主要是费电,穷),所以就需要一个功耗低的方案,我一开始想到的是树莓派,但是树莓派也是需要花钱买的!于是我重新启用了我大学时候的破电脑,2G内存开个浏览器都会卡的那种,不过这种性能做个网页服务还是可以的。开搞!
- linux系统,我安装的centos 7 最小化安装,连可视化界面都不要的那种方案:一切为了节省性能
- 用网线连接网络,安装网络驱动,安装ntfs驱动,安装数据库,安装java坏境,保证笔记本可以无线ssh登录,读取移动硬盘即可
- 复制图片资源到笔记本
- 复制网站程序到笔记本,将程序添加到自启动列表中,到此一切结束,大概花费了一周时间,到此就拥有了一个私人漫画网站!
6 后续
后来为了保证散热我把笔记本的后壳敲调一大块,为了轻便还把屏幕给卸掉,所有无关的配件能拆就拆,最后想说2G内存跑起来还是可以的
有时候图片会丢失,请关注个人博客备份地址,