Javaで書かれたクロール爬虫類フィルム

クロール前提
MySQLデータベースのインストールローカル1)
2)のアイデアや開発ツールをEclipseがインストールされ

たコンテンツのクロール、2を
、映画の名前をフィルムプロファイル、映画の映像、映画のダウンロードリンク

3またはロジッククロール
作品ネットワークリストを入力するには1)ページ、HTMLコンテンツリストのデータが抽出された映画の名前、映画の紹介、映画の映像、動画は、データベーステーブルに、URLの詳細を
ステップ1のムービーの詳細URLで得られた2)、映画の詳細ページを入力し、ダウンロードリンクを取得し、更新されたデータベースダウンロードリンクフィールド
データが終了したか、クロールサイクルが完了するまで処理ループとして3)が実行されます。

第三に、クロールステップ
1)ローカルデータベーススクリプトdatabase.sqlに初期化
SET FOREIGN_KEY_CHECKS = 0 

- ---------------------------- 
- 映画のテーブル構造
- ------------ ---------------- 
DROP  TABLE  IFは EXISTS `movie`を。
CREATE  TABLE ( `movie`を
  `id` BIGINT20NOT  NULL AUTO_INCREMENT、
  `title` VARCHAR100DEFAULTの NULL 
  `pic_url` VARCHAR100DEFAULTの NULL 
  `target_url` VARCHAR100DEFAULTの NULL 
  `introduction` VARCHAR1000のDEFAULT  NULL 
  `download_url`のテキスト
  `create_time` 日時 のDEFAULT  NULL PRIMARY  KEY (` id`)
)ENGINE = InnoDBのAUTO_INCREMENT = 0  DEFAULT CHARSET = UTF8。

 

2)ファイル名を指定して実行MovieMain.java機能、オープン爬虫類(現在は1000のデータをクロール、約100000映画の合計)

3)データベーステーブルを照会し、明確なデータは、クロール観察しました

選択 *  から映画。

四、githubのコードアドレス

HTTPS:// github.com/mhlmelon/SpiderMovie

 V.の概要

長所:簡単なデバッグ

不十分:Javaバージョン遅く(約10秒登るあたり)、フォローアップは、Pythonのバージョンを占めるようになります。

おすすめ

転載: www.cnblogs.com/mhl1003/p/11711816.html