初心者のためのアンチ登ります

Aは、戦略ポケット
1、爬虫類ないユーザエージェントによって決定されます。
解決策:迷彩ユーザエージェントクライアント識別
2、訪問の頻度によって判断します。
解決策:要求の頻度を設定します。

time.sleep(random.randint(0,5))

図3は、シールIPは
、プロキシIPアドレスを設定します。

requests.get(
URL、
ヘッダ、
paramsは、
プロキシ、代理字典
プロキシ = {
 ' HTTP '' のhttp:// IPアドレス:ポート' 
}

図4に示すように、ページコンテンツを直接表示されないが、JSによって動的ローディングが得られました。
解決策:解決するにはセレン+ phantomjs。
二、技術的なhtmlページ
1、JS:
HTMLページの骨格は、CSSの装飾で、jsがページの動作です。
jsが非常に重要です。
2、jqueryのは:JSライブラリjsの役割は、プログラミングを簡素化することです。
3、AJAX:ウェブ非同期要求技術。
非同期リクエスト:
同期リクエスト:
4、DHTML
3、セレン及びPhantomJS
1、セレンは何ですか?
セレンは、Web自動テストツールです。しかし、それは、ブラウザの機能を使用して自身ません。彼は実際にあなたには、いくつかのタスクを完了するために外部アプリケーションを制御することができ、同様に、いくつかのドライバの外部アプリケーションとして使用することができるツールです。
2、セレンインストール:
PIPは、セレン== 2.48.0インストール
3を、phantomjs何ですか?
phantomjsそれは実際に内蔵されたブラウザインタフェースブラウザエンジンなしです。彼はページjsのコードを実行し、Webブラウザのようにページをロードすることができます。
4.なぜセレンとphantomjsの組み合わせは、任意のサイトのデータ・ページの問題を解決することができますか?
セレンは、Pythonプログラムのようなものであるブラウザと同等のものをphantomjs。ブラウザを制御するためのpythonで、それらの組み合わせと同等であれば、彼らは、ブラウザのページ内にロードすることができるよう、ページの内容を解析し、我々はデータにこの組み合わせを介して取得します。
5、インストールがphantomjs。
より高速なミラーダウンロードにphantomjsミラーを検索します。

2.1.1-PhantomJS このパッケージを使用する方法windows.zip:phantomjs.exeは、以下のスクリプトのアナコンダのパッケージに、内部でこのexeファイルを見つけました。
テストは、インストールされているかどうか:与えられていない場合は、インストールが成功し、以下CMDウィンドウでphantomjsを入力します。

6.インストールのビジュアルブラウザクロームドライブ。

chromedriver.exeをダウンロードしてインストール---->このドライブは、それは、Googleのセレンは、ドライブをドライブできることです。----> 私たちは、ブラウザのクロームの独自のバージョンを制御する必要がありますダウンロードしてください。
ダウンロード:検索chromedriverミラーchromedriver_win32.zip、chromedriver.exe内部を見つけ、彼はまた、以下のスクリプトのアナコンダのパッケージを手。

7、セレンを使用

ドキュメント:selenuim共通メソッド。注
リンクします。http://note.youdao.com/noteshare ID = 0142a95cf23fadbaea95809ccb5674b2&サブ= 02896A50836E4995997A821419D9A063?

おすすめ

転載: www.cnblogs.com/bug-king/p/11980194.html