python初めての経験 - ウェブクローラ

原則爬虫類:ちょうどクローラは、私たちは、ページデータを得るのを助けるために自動化されたプログラムです。そして、あなたはおそらく、我々は、ページデータを取得し、正確にどのように思っていますか?ここでは、ネットワークと通信します類推と呼ばれる:我々は、アクセスしたいとき、Webサイトをするとき(URL)、ウェブサイト(URL)は、電話番号と同様であり、コンピュータ、スマートフォンなどのクライアント(クライアント)が好きになるでしょう電話。クライアントの経由のブラウザアクセス(ブラウザ)に送信要求を電話で電話番号をダイヤルするように、(要求を)。要求が呼び出された受信党のサーバー、サーバーが正常に動作し、私たちの要求に同意した場合、(Webサーバ)がクライアントに送信されます答えに置かれる内容に答えるために、(応答)のHTMLファイル。この場合は、ブラウザとは、私たちがパースを助けることができるのHTMLファイルを、それは我々が通常見られるようなWebページの外観に変身しましょう。

urllibはは、  我々はを通じて、Pythonモジュールで  インポート  を呼び出し、それ(せurllib.requestは)私たちは、URLにリクエストを送信し、返信を受信することを支援します。

我々はまだ未開封の手紙に先URLに相当し、次にする事は使用され  urllibは中  )(読む、手紙の具体的な内容をお読みください。

urllib.request輸入urlopenから
ページ= "https://assets.baydn.com/baydn/public/codetime/1/shanbay_news.html"
爬取ページ数据存入shanbay_news
shanbay_news = urlopen(ページ)
news_data = shanbay_news.read ()
プリント(news_data)

おすすめ

転載: www.cnblogs.com/free-1124/p/11360080.html