クロール前提
MySQLデータベースのインストールローカル1)
2)のアイデアや開発ツールをEclipseがインストールされ
たコンテンツのクロール、2を
、映画の名前をフィルムプロファイル、映画の映像、映画のダウンロードリンク
3またはロジッククロール
作品ネットワークリストを入力するには1)ページ、HTMLコンテンツリストのデータが抽出された映画の名前、映画の紹介、映画の映像、動画は、データベーステーブルに、URLの詳細を
ステップ1のムービーの詳細URLで得られた2)、映画の詳細ページを入力し、ダウンロードリンクを取得し、更新されたデータベースダウンロードリンクフィールド
データが終了したか、クロールサイクルが完了するまで処理ループとして3)が実行されます。
第三に、クロールステップ
1)ローカルデータベーススクリプトdatabase.sqlに初期化
SET FOREIGN_KEY_CHECKS = 0 。 - ---------------------------- - 映画のテーブル構造 - ------------ ---------------- DROP TABLE IFは EXISTS `movie`を。 CREATE TABLE ( `movie`を `id` BIGINT(20)NOT NULL AUTO_INCREMENT、 `title` VARCHAR(100)DEFAULTの NULL 、 `pic_url` VARCHAR(100)DEFAULTの NULL 、 `target_url` VARCHAR(100)DEFAULTの NULL 、 `introduction` VARCHAR(1000)のDEFAULT NULL 、 `download_url`のテキスト、 `create_time` 日時 のDEFAULT NULL 、 PRIMARY KEY (` id`) )ENGINE = InnoDBのAUTO_INCREMENT = 0 DEFAULT CHARSET = UTF8。
2)ファイル名を指定して実行MovieMain.java機能、オープン爬虫類(現在は1000のデータをクロール、約100000映画の合計)
3)データベーステーブルを照会し、明確なデータは、クロール観察しました
選択 * から映画。
四、githubのコードアドレス
HTTPS:// github.com/mhlmelon/SpiderMovie
V.の概要
長所:簡単なデバッグ
不十分:Javaバージョン遅く(約10秒登るあたり)、フォローアップは、Pythonのバージョンを占めるようになります。