ゼロベースのエントリ-pythonの爬虫類の出会いピット

ゼロベースのエントリ - Pythonの爬虫類

まず、私はiOSのモバイル開発者だと説明しています。年次休暇の間に、他の流行何の影響により、少しクローラは、私自身の好奇心を満たすために好きなもののいくつかを登るための方法を時間を殺す書きます。

さらに騒ぎがなければ、爬虫類自身のエントリ週間の出会いいくつかのピット、この記事を書くの目的は、初心者のためのいくつかの提案を与える、より少ない時間の無駄です。

** 1 **環境のサポート:クローラーは、最初にすべてのPython環境を持っている、と言うためにここにソフトウェアのサポートを必要とするが、より多くの。ここで私は、オープンソースのPython condaが含まれているリリース、Pythonと180以上の科学的なパッケージとその依存関係で、後者DOの爬虫類は、ライブラリの多くを必要とし、それらの間があるでしょうアナコンダが参照し、科学的なコンピューティング環境アナコンダの使用をお勧めします多くは少し不注意が吐き気の問題は、特にWindowsシステムでは、理解していないだろう、に依存し、アナコンダの使用は、これらの問題は、非常に便利になります。この環境のインストールが(ちょうど引っ張る:オンライン多くがあるAnacondaインストールは、チュートリアルをはじめ)ここでは、その後のことを追加し、アナコンダは公式サイトにアクセスすることはできません通常、清華大学で、壁を越えないが、中国のオープンソースソフトウェアのミラーサイト(リンクを添付:清華大学のオープンソースをソフトウェアのミラーサイト

。** 2 ** IDE:一般的に使用さpycharm

** 3 **単純な静的Webサイト(だけでなく、反対の動的なウェブサイト、比較的複雑なクローリング)を見つけるために始めた、例えば、簡単な小説サイト:ペン興味深いのは確認し

フレームを要求することができて** 4 **クローラは、要求とデータ処理ネットワーク、ネットワークは何も言うことを要求していない本質的です。データ処理は、基本的にはHTMLページの文字傍受の抽出物に、彼らが望むコンテンツにマッチする正規表現の基本的な操作を習得して、ライブラリを使用し、初心者にお勧めこの1です。

** 5 **多くの新規参入者は言う:(私はあまり子供の仕事をしなかったの前に)望んでいない実行するために、結果をオンライン爬虫類スティックコードの多くはダウンし、私たちは三つの理由があると結論:①年齢、登りますあなたは、サイトにアクセスすることはできません。②サイトの構造が変更された、オリジナルエキス・ロジック・コードは適用されません。③プロトコルは、今日のほとんどで使用されているHTTPプロトコルは、多くのサイトで使用される前に、非常に迅速にインターネットの現在の開発を知っているが、それはセキュリティ上のリスクがあるで、HTTPSに。(User-Agentヘッダフィールドの内容は、情報を要求するユーザが含まれている実際の状況に応じて...クッキー、ユーザエージェント、ブラウザでクッキー:クローラの要求に基づいて場合は、追加ヘッダパラメータのリンクが必要ですこれは)サーバとユーザ情報に関連して説明することができる小さなデータ量、に登録されています

** 6 ** Pawan簡単なの静的なWebページ、動的で複雑なウェブクローリングまだか。動的および静的なWebページとの違いは、次のとおりです。

静的ページ:
(1)静的なWebページは、単に静止として理解することができない、彼は主にページを指していないコード、HTMLのみ(例:HTML)一般サフィックスの.html、.htmを、または.xmlのように。ページが作られたら、静的なページは、内容は変更されません。しかし、静的なページはまた、いくつかの活性部分が含まれ、これらは主要なアニメーションGIFなどのいくつかである
(2)静的なページが開き、ページを開くには、いつでもユーザーが単にダブルクリックすると、関係なく、すべての人の内容は同じです。

動的ページ:
(1)相対静的ページと技術をプログラミング動的ウェブページを指します。動的なWebページのファイルは、HTMLタグに加えて、さらに具体的な機能を備えたいくつかのプログラムコードは、コードがブラウザを引き起こす可能性があり、サーバが異なる要求しているクライアントに応じて、サーバーを動的に生成されたWebコンテンツを相互作用することができます。
すなわち:静的なページと動的ページは、ページのコードは、しかし変更されていないが、表示された内容は、環境やデータベース操作時間の結果として変更することができます。
Webページ上のアニメーションの視覚的な多様にありません動的効果を持つ(2)動的なWebページ、直接、動的ページに関連したマーキーは、プレーンテキストことができ、スクロール、あなたはまた、アニメーションコンテンツの多様性を含むことができ、これらは、単に特定のページですコンテンツの形式に関係なく、ページが長い(などPHP、ASP、JSP、など)動的なWeb技術の使用は、生成されたWebページは動的ページとして知られているようとして、動的な効果であるかどうかの。

単にプログラムの内容やページに表示するためのHTMLコードダウンpythonでのWebページのアドレスを要求していることは同じではありませんが、あなたは、分析のために、追加の隠されたデータの要求へのWebページの必要性の内容を取得したいです。

:ここでは(を伴うページAjaxリクエストを見つけるために、どのように分析するかを伝えるために、栗だステップとAjax AJAXリクエストはどのようなものを
ここに画像を挿入説明
それを言いたい、私たちは間違いなくピットの後ろのステップに進みます...

出版元の記事 ウォンの賞賛0 ビュー42

おすすめ

転載: blog.csdn.net/qq_41431582/article/details/104614175