H +爬虫類マンウェブサイトハック+ウェブサイトの統合例

Hは男ハンマンを表し、空想しません。

 

Webクローラー(また、Webスパイダー、ウェブロボットとして知られ、FOAFコミュニティの途中で、より頻繁にウェブチェイサーと呼ばれる)、ワールド・ワイド・ウェブのプログラムやスクリプトで自動的にグラブ情報、フォロー一定のルールのようなものです。他のあまり頻繁に使用される名前はアリ、自動インデックス作成、シミュレーションプログラムやワームが含まれます。

1起源

2インタフェース分析

3プログラミング

4 Webプレゼンス

5展開の実行

6フォローアップ

1起源

最近、男ハンは、ポイントはいくつかの章に見えたソーシャルメディアサイトで見られ、私はかなり良いと感じるが、残念ながら最初の数章は、あなたがして、掘る金を見て漫画を検索する必要があり、自由であるということであるが、そのような漫画を見つけました最終的な分析では、トップの韓国のウェブサイトと呼ばれるリソースを盗むことです。

 

F12習慣的なトーンオープンネットワークは、予想外の発見漫画のデータは、インタフェースJSON形式を介して送信されます!

 

データ取得漫画セクションのページング

 

各セクション内のデータは、時計へのメンバーのためのメカニズムを超えるすべての漫画データ、手段を持っています!

この状況は、単純にクロールを、是非私に言っています...

デザインアイデアはにある
データベースにデータをクロール1.まずプログラムサイト
ローカルに画像に漫画クロールに続いて2
閲覧に独自のフィーリングの自由の最終的発展のための簡単な3プレビューサイト

2インタフェース分析

このデータAPIインタフェースは、おそらく最も簡単なもの、シンプル、ライン上のインターフェイスの直接分析であります

  • アクセス・インターフェースはプログラムを介してアクセスノートクッキーまでの時間は、のようにブラウザから直接プログラムにデータ・セットのコピーが一般的ケースであるので

  • インターフェイスは、すべての漫画のデータを見つけることができます取得し、観察は、メニューの分類下には、インタフェースのすべてを取得するための漫画のページであること

 

 

 

  • 全ての漫画がダウンしてクロールし、データベーステーブルに保存されている漫画のループを介してすべてのデータのクエリページングを降り  漫画のテーブル

 

漫画のテーブル

  • そして、循環によって漫画のテーブルを訪問し、データベースに格納されたデータは、ループテーブル似顔絵ページを下に照会し、すべての章を取得します  章の表を

 

cartoon表

漫画のテーブル

プロセスの爬虫類は、私たちのプログラム、適切な遅延で、スリープ()関数を呼び出します。このページへのアクセス速度を減少させ、プログラムは、ウォッチドッグが遮蔽されないように

3プログラミング

次のステップは、ロジックをクロールの最も重要な絵です...

考虑后续章节的更新可以增加字段用以拓展
比如在cartoon表中增加 mhstatus ,lock 和 finish 字段

 

整体流程,简单画了一下

 

单次流程,简单画了一下

就这样写完程序第一次爬取就用了大概三天的时间,中间有关机休息,总共是爬取了320本漫画,11702个章节
约40G的资源

 

40G条漫资源

40G条漫资源

4 网站呈现

漫画都是图片目录观看很不方便,因此需要开发一个简单的网站,这个对于一个程序员应该说都不难,因为是自己看所以不需要注册 不需要会员 更不需要金币和广告,直接运行在自己家的电脑上一个网址就可以
于是就第一版的网站不到一个小时就搞出来了,真的是简单暴力!点开即看!

 

然而真的很简单吗?实际体验中发现许多问题了,即使仅自己看的网站都是需要打磨,需要下功夫的,主要问题有

  • 1 没有观看记录,每次都需要翻开自己上次看到哪里了
  • 2 没有自动翻页
  • 3 看过看完的作品始终在前排呈现每次还是都要翻
  • 4 没有下一章上一章 需要后退点下一章

于是接着开干,一一解决了以上几个问题

  • 漫画分类有 看过 未看 收藏三个分类,回看直接会看上一次看到的章节

 

 

 

  • 在观看页面增加 top button按钮,自动滚屏,上一张下一章功能

 

搞到这里发现为了看个漫画我费了多大劲!

  • 然而还没完,在实际浏览中真的有很漂亮的图想保存下来,如果另存为的话是不行的,因为这是条漫,你只想截取一个画面,但有可能是好几个对话的内容都被下载了,怎么办呢?继续搞!

思路是通过在图片上定位两个点,然后通过两个点的高度与图片的长度进行比例计算然后传到后台,在后台进行图片比例裁剪,直接保存到服务器上,多说无益直接上图看效果

 

通过点击两次点击 绿线开始 红线结束,即可将区域内的图片单独截取下来

 

 

收藏图库中所截取的图片和页面截取区域相差不大,可以接受

 

5 部署运行

一开始是用家式电脑搞的,但是实际使用中不能老开着电脑当服务器,主要是对电脑的损耗,其次是费电啊!(其实主要是费电,穷),所以就需要一个功耗低的方案,我一开始想到的是树莓派,但是树莓派也是需要花钱买的!于是我重新启用了我大学时候的破电脑,2G内存开个浏览器都会卡的那种,不过这种性能做个网页服务还是可以的。开搞!

  • linux系统,我安装的centos 7 最小化安装,连可视化界面都不要的那种方案:一切为了节省性能
  • 用网线连接网络,安装网络驱动,安装ntfs驱动,安装数据库,安装java坏境,保证笔记本可以无线ssh登录,读取移动硬盘即可
  • 复制图片资源到笔记本
  • 复制网站程序到笔记本,将程序添加到自启动列表中,到此一切结束,大概花费了一周时间,到此就拥有了一个私人漫画网站!

6 后续

后来为了保证散热我把笔记本的后壳敲调一大块,为了轻便还把屏幕给卸掉,所有无关的配件能拆就拆,最后想说2G内存跑起来还是可以的

 

有时候图片会丢失,请关注个人博客备份地址,

https://cookanger.top/2020/02/12/spider/korea_cartoon/

发布了7 篇原创文章 · 获赞 30 · 访问量 6万+

おすすめ

転載: blog.csdn.net/u010034154/article/details/104286790