基本的な使い方1.jupyter
二つのモード:コードと値下げ
(1)コードモードPY直接コードを書くことができ
(2)マークダウンスタイルを直接指定することができ
(3)再編集するにはダブルクリックします
(4)ショートカット概要:
セルを挿入:ABは 、セルを削除:X スイッチセルモデル:私の 実行セル:Shiftキー + 入力 タブ:オートコンプリート Shiftキー + Tabキーを:ヘルプファイルを開きます。
(5)キャッシュ内ipynbファイルは順不同で、と等価である。キャッシング機構
2. 2番目のオープンアナコンダの道:
(1)図1
(2)図2。
(3)図3、図低い二つの経路は、またブラウザコンテンツオンされ
トップを開き、あなたは環境変数を設定する必要はありません。
2.基本概念:のhttpレビュー
1.爬虫類とは何ですか?
私たちは多くのことを使用:ブラウザ自体は、
コンセプト:インターネットブラウザをシミュレートするプログラムを書くことで、インターネット上のデータを取得する処理を行ってみましょう。
爬虫類の2分類
(1)一般的な爬虫類:このようBaiduは、360などのデータのページ全体を取得し、(把持システムのセットの背後)Sogouのブラウザ
(2)フォーカスクローラー:ローカルデータページを取得するには、指定された要件に従って指定します
(3)インクリメンタル爬虫類:する監視状況サイトのデータ更新は、サイトデータへの最新の更新プログラムのうち、クロール
scrapyを説明し終えた後、その後に来る:(4)爬虫類分散
3.アンチ登る自然
アンチ上昇メカニズム:サイトがデータをクロールするクローラープログラムのウェブサイトをブロックするために、関連する技術的手段や戦略を取ることができます
抗抗クライミング戦略:データを取得するためにクラック抗登る機構を介してクローラをしてみましょう
4.契約
(1)ロボット・プロトコル(に準拠することができない):抗登る契約、両面ジョブを遵守する必要があり、登ることができない、データを登ることができるかを指定します。
抗抗悪役は紳士協定ではありません
https://www.taobao.com/robots.txt
(2)HTTPプロトコル(ハイパーテキスト転送プロトコル):クライアントとサーバーは、データ交換の形であっても(合計で良いことがあります)
HTTPSプロトコル:HTTPセキュリティ
実際には、人々の間でのデータ交換中。
-するためにヘッダー情報を使用して
、ヘッダーを要求:
-のUser-Agent:リクエストキャリアアイデンティティ(ブラウザやクローラが爬虫類の迷彩によって、行います)
例えば、我々は、Googleのブラウザをインストールし、そして私たちの訪問ですBaiduは、ベクトル要求は、「Google Chromeの」です
-接続:キープアライブまたは閉じます
閉じるプロパティを:成功した要求の後、要求はすぐに対応するリンク切断されます
キープアライブを、成功した要求の後、要求対応するリンクが切断されますが、すぐに抜かないであろう
応答ヘッダを:
--content-のタイプ:JSONまたはテキストやJS、行動することができます:バッククライアントデータフォーマットやデータ型に対するサーバの応答に注意してください。
5。
HTTPS:セキュアHTTPプロトコル
証明書の暗号化キー?
その上で暗号化を理解する前に、まず「対称秘密鍵暗号化」、「非対称秘密鍵暗号化」を理解して
への予備的な理解
3つの保護モード:証明書の秘密鍵暗号、対称暗号鍵、非対称鍵暗号
(1)SSL暗号化:
「共有キー」と呼ばれて使用されるSSL暗号化技術は、また、「対称秘密鍵暗号」と呼ば
短所:一度パーティの傍受、それは秘密鍵と公開鍵暗号を解読することになりますがひび割れすることができます
(2)非対称暗号化
短所:(1)効率は、(2)知らないクライアントは、サーバによって送信されていない公開鍵である、比較的低いです。
(3)証明書の秘密鍵暗号化:非対称暗号化秘密鍵の問題のキャプチャ
三者機関:認証局
参考ブログ:https://www.cnblogs.com/bobo-zhang/p/9645715.html