Aは、戦略ポケット
1、爬虫類ないユーザエージェントによって決定されます。
解決策:迷彩ユーザエージェントクライアント識別
2、訪問の頻度によって判断します。
解決策:要求の頻度を設定します。
time.sleep(random.randint(0,5))
図3は、シールIPは
、プロキシIPアドレスを設定します。
requests.get( URL、 ヘッダ、 paramsは、 プロキシ、代理字典 ) プロキシ = { ' HTTP ':' のhttp:// IPアドレス:ポート' 、 }
図4に示すように、ページコンテンツを直接表示されないが、JSによって動的ローディングが得られました。
解決策:解決するにはセレン+ phantomjs。
二、技術的なhtmlページ
1、JS:
HTMLページの骨格は、CSSの装飾で、jsがページの動作です。
jsが非常に重要です。
2、jqueryのは:JSライブラリjsの役割は、プログラミングを簡素化することです。
3、AJAX:ウェブ非同期要求技術。
非同期リクエスト:
同期リクエスト:
4、DHTML
3、セレン及びPhantomJS
1、セレンは何ですか?
セレンは、Web自動テストツールです。しかし、それは、ブラウザの機能を使用して自身ません。彼は実際にあなたには、いくつかのタスクを完了するために外部アプリケーションを制御することができ、同様に、いくつかのドライバの外部アプリケーションとして使用することができるツールです。
2、セレンインストール:
PIPは、セレン== 2.48.0インストール
3を、phantomjs何ですか?
phantomjsそれは実際に内蔵されたブラウザインタフェースブラウザエンジンなしです。彼はページjsのコードを実行し、Webブラウザのようにページをロードすることができます。
4.なぜセレンとphantomjsの組み合わせは、任意のサイトのデータ・ページの問題を解決することができますか?
セレンは、Pythonプログラムのようなものであるブラウザと同等のものをphantomjs。ブラウザを制御するためのpythonで、それらの組み合わせと同等であれば、彼らは、ブラウザのページ内にロードすることができるよう、ページの内容を解析し、我々はデータにこの組み合わせを介して取得します。
5、インストールがphantomjs。
より高速なミラーダウンロードにphantomjsミラーを検索します。
2.1.1-PhantomJS このパッケージを使用する方法windows.zip:phantomjs.exeは、以下のスクリプトのアナコンダのパッケージに、内部でこのexeファイルを見つけました。
テストは、インストールされているかどうか:与えられていない場合は、インストールが成功し、以下CMDウィンドウでphantomjsを入力します。
6.インストールのビジュアルブラウザクロームドライブ。
chromedriver.exeをダウンロードしてインストール---->このドライブは、それは、Googleのセレンは、ドライブをドライブできることです。----> 私たちは、ブラウザのクロームの独自のバージョンを制御する必要がありますダウンロードしてください。
ダウンロード:検索chromedriverミラーchromedriver_win32.zip、chromedriver.exe内部を見つけ、彼はまた、以下のスクリプトのアナコンダのパッケージを手。
7、セレンを使用
ドキュメント:selenuim共通メソッド。注
リンクします。http://note.youdao.com/noteshare ID = 0142a95cf23fadbaea95809ccb5674b2&サブ= 02896A50836E4995997A821419D9A063?