マイクロチャネルグループのシェア:予備のPythonのWebクローラ

1989年グイド・ヴァンロッサムダニエルの発明によるPython言語は、それは、世界で最も人気のあるコンピュータープログラミング言語の一つであるだけでなく、コンピューティングエコシステムの言語「有用な学習、と長い時間を学ぶことができ、学ぶことができます」。

このため、中国最大のITコミュニティとして、特にファンの大多数にCSDNは、より効率的に学ぶために道路上のヘルプの人々の迂回路へのPython Pythonのクラスを設定します。女神まつり昨日、我々は、有名な専門家のヤンXiuzhang教師CSDNのブログ、クラスで会議室の活動を開催しましたブログの専門家を招待し続けています。

ヤンXiuzhang:Webデータマイニング/ソフトウェアエンジニアリング。卒業研究関連Webデータマイニング及び知識マップ、Pythonのセレンクローラとデータマイニングアルゴリズムに書き込ま番号と組み合わせます。いくつかの技術を共有するためにCSDN、月に準拠して書き込みブログを始めた2013年から、我々は8つの列を完了しました。ブログのアドレス:http://blog.csdn.net/Eastmount

ここで、ヤンは、株式のPythonのクラスです。

あなたを知っている、とあなたは、単にPythonのに関連するいくつかの基本的な知識を交換することは非常に幸せ。グループと偉大な神の多くがあったが、私は主に、彼らがやっていることと、いくつかのPythonの知識を説明し、これはPythonの関心を学ぶ学生を強化するためのいくつかの簡単な実用的なアプリケーションを介してメインレッスンPythonの爬虫類関連の知識は、あります。
それは、マイクロチャネルの講義ですので、〜も許してください、良い場所を話します

私が前に言ったように:PythonのPythonのを学ぶための最も重要な場所はそれを学び、彼らの関心を高めるため、彼らが好きなもののいくつかを実行している、Pythonの、データ分析、自動テスト、ウェブサイト、GUIゲームなどの爬虫類。

ウェブクローラ

また、自動的にワールド・ワイド・ウェブのプログラムやスクリプトの情報をつかむ、一定のルールに従っているウェブスパイダー、ウェブロボット、として知られているWebクローラー(スパイダーウェブ)、。

書き込み絵は、ここで説明しました

Pythonの爬虫類一般的なツールが含まれます:正規表現、XPathの技術、セレン、BeautifulSoup、Scrapyなどを。このレッスンでは、主にセレンを講義や情報を自動的にクロールのPythonをインストールします。

セレン

セレンはまた、Webアプリケーションのテストのためのツールです。Seleniumテストは、ちょうど同じ操作で実際のユーザーとして、ブラウザで直接実行されます。通常、我々は、単純な爬虫類として使用されている自動テスト用に使用。

ステップ1:セレンインストール
ピップは、セレンのインストール・インストールを呼び出す、次のスクリプトのパスに移動するには、CDを
注:コールピップのか、サードパーティのライブラリをインストールするeasy_installを、Pythonのインストールは一般的な使用法です。

書き込み絵は、ここで説明しました

ステップ2:Firefoxブラウザをインストールします。

第三段階:簡単なアクセスBaiduのページ

from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
data = driver.title
print data

書き込み絵は、ここで説明しました

webdriver.Firefox()は、Firefoxブラウザを呼び出すことで、この文は自動的にFirefoxブラウザのポップアップ表示されます:どこ
のページのURLにアクセスするためにブラウザを呼び出した後にdriver.get(URL)を
ドライバが含まれてプロパティとメソッドを、ここでは出力タイトルがあります"Baiduは、あなたが知っています。"

注:Pythonのimport構文はXXXX輸入XXXXのから共通パッケージです
例:sklearn.clusterインポート関数kmeansからの
機械学習sklearnパッケージのインポート関数kmeansクラスタのクラスタクラスタリング手法から
、クラスタ内の関数kmeans、当然のことながら、他のクラスタがあります方法

from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
data = driver.title
print data
driver.save_screenshot('baidu.png')  

書き込み絵は、ここで説明しました

コードを追加し、ローカルにダウンロードしてページ全体をコピーします。

書き込み絵は、ここで説明しました

セレン共通の要素の配置と操作する方法

なお、ドライバは共通含めメソッドとプロパティの数が含ま下:
(要素を見つけます)、あなたはセレンは、ページの要素を定義するには、次の方法を提供し、最適なソリューションを選択することができ、Webページの要素を見つけるための様々な戦略があります。 :

•find_element_by_id
•find_element_by_name
•find_element_by_xpath
•find_element_by_link_text
•find_element_by_partial_link_text
•find_element_by_tag_name
•find_element_by_class_name
•find_element_by_css_selector

ここでは、(これらのメソッドは、リストを返します)複数の要素を見つけることです。

•find_elements_by_name
•find_elements_by_xpath
•find_elements_by_link_text 
•find_elements_by_partial_link_text
•find_elements_by_tag_name
•find_elements_by_class_name
•find_elements_by_css_selector

上記の指定された公開方法に加えて、2つの有用なページオブジェクトロケータプライベートメソッドもあります。これらの2つの方法は、プライベートとfind_elements find_elementです。

例えば:

書き込み絵は、ここで説明しました

書き込み絵は、ここで説明しました

対応するテキスト:

書き込み絵は、ここで説明しました

書き込み絵は、ここで説明しました

from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
data = driver.title
print data
driver.save_screenshot('baidu.png')  

位置決め要素のidで

word = driver.find_element_by_id('u1')
print word.text

焦点は、サイトのDOMツリー構造を分析することです。

ページが通常のような、木の形で保存されていることに留意すべきです。

我々は右の分析、対応するインターフェースの検討要素に学ぶ必要があります:

書き込み絵は、ここで説明しました

書き込み絵は、ここで説明しました

ユニバーサルの下で皆のための知識の比較の基準

トピック:

  1. ピップは、さまざまなライブラリ関数、アナコンダコールピップ操作をインストールする方法を学びます。
  2. セレンは、Baiduのホーム・ページをクロールPythonの呼び出しを学ぶことは簡単です。
  3. Pythonの位置決め要素を学ぶためのセレンコールは、爬虫類のページを書き込もうとする必要があります。
  4. セレンは、Pythonは自動的に操作をログ呼び出す学びます。
  5. 、IPアドレス変換、シミュレートされた着陸およびその他の操作を実現した場合(ハード)403禁止エラーを防止します。

同時に、任意のコメント講義の存在は、また、私にフィードバックを与えるお互いから学び、お互いを改善するために歓迎します。

-あなたの助けのためにこのコースの希望は、私は、非常に良いではない話す感じる私と通信するために多くの知識を与えたい、ありがとうございました
。このプラットフォームCSDNに感謝します。

Pythonの爬虫類

    • urllibは他の単純なダウンロードデータパケット
    • セレン爬虫類=「自動化ツール
    • Beautifulsoupの爬虫類
    • ドムツリー分析
    • 分散型爬虫類、スレッド

Pythonのデータ分析

  1. 一般的なPythonのデータ解析パッケージ
  2. Sklearn、numpyの、scipyのダウンロード、matplotlibの
  3. データマイニングの基礎

基本的な流れ

  • PythonのWebデザイン
  • Odoo ERPフレームワーク

クラスのハイライト

書き込み絵は、ここで説明しました

Python言語へようこそ交換技術の学生が私たちのCSDN Pythonのクラスに参加することを愛する、学びたいと思っています。2次元コードの下のグループにグループを掃除してください。

現在、グループがいっぱいになる、以下のアシスタントのアカウントをスキャングループへの入学を申請してください

書き込み絵は、ここで説明しました

公開された155元の記事 ウォンの賞賛964 ・は 80000 +を見て

おすすめ

転載: blog.csdn.net/mengyidan/article/details/80128511