Web レビューの要素

クローラーの内容を説明する前に、クローラーを作成するために必要なスキルであるレビュー要素を学習する必要があります (マスターしている場合は、この部分をスキップできます)。

1.要素の見直し

ブラウザのアドレス バーに URL アドレスを入力し、Web ページを右クリックして [チェック] を探します。(ブラウザによって呼び名が異なります。Chrome ブラウザは検査、Firefox ブラウザは表示要素と呼ばれますが、機能は同じです)

右側にコードの大きなプッシュがあることがわかります。これらのコードは HTML と呼ばれます。HTMLとは?わかりやすい例を挙げると、私たちの遺伝子が元の外観を決定し、サーバーから返された HTML が Web サイトの元の外観を決定します。

なぜそれが元の姿だと言えるのですか?

人々は整形手術を受けることができるからです!失恋、何かありますか?ウェブサイトも「化粧品」にできますか?できる!下の写真をご覧ください。

そんなにお金を持てますか?明らかに不可能です。どのようにしてウェブサイトを「フェイスリフト」しましたか? これは、サーバーから返された HTML 情報を変更することによって行われます。私たち一人ひとりが「形成外科の達人」であり、ページ情報を修正することができます。ページ上の検査要素をクリックすると、ブラウザが対応する HTML の場所を特定し、HTML 情報をローカルで変更できます。

もう 1 つの小さな例: ブラウザーの「パスワードを記憶する」機能を使用すると、パスワードが目に見えない小さな黒い点の集まりになることは誰もが知っています。パスワードは表示できますか?はい、ページで「少し手術をしてください」だけです!タオバオを例にとると、パスワード入力ボックスを右クリックし、[確認] をクリックします。

ご覧のとおり、ブラウザーは対応する HTML の場所を自動的に見つけます。次の図の password 属性の値を text 属性の値に変更します (右側のコードで直接変更します)。

ブラウザに記憶させるように求めたパスワードは、次のように表示されます。

そこまで言ってどうするの?クライアントとして、ブラウザはサーバーから情報を取得し、情報を解析して表示します。HTML 情報をローカルで変更して Web ページを「手直し」することはできますが、変更した情報はサーバーに送り返されず、サーバーに保存されている HTML 情報は変更されません。インターフェイスを更新すると、ページは元の外観に戻ります。これは形成外科と同じで、表面的なものは変えることができますが、遺伝子を変えることはできません。

2.簡単な例

Web クローラーの最初のステップは、URL に従って Web ページの HTML 情報を取得することです。Python3 では、urllib.request と requests を Web クローリングに使用できます。

  • urllib库是python内置的,无需我们额外安装,只要安装了Python就可以使用这个库。

  • requests库是第三方库,需要我们自己安装。

requests库强大好用,所以本文使用requests库获取网页的HTML信息。requests库的github地址:https://github.com/requests/requests

(1) requests安装

在cmd中,使用如下指令安装requests:

pip install requests1

或者:

easy_install requests1

(2) 简单实例

requests库的基础方法如下:

requests中文文档:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

requests库的开发者为我们提供了详细的中文教程,查询起来很方便。本文不会对其所有内容进行讲解,摘取其部分使用到的内容,进行实战说明。

首先,让我们看下requests.get()方法,它用于向服务器发起GET请求,不了解GET请求没有关系。我们可以这样理解:get的中文意思是得到、抓住,那这个requests.get()方法就是从服务器得到、抓住数据,也就是获取数据。让我们看一个例子(以 www.gitbook.cn为例)来加深理解:

# -*- coding:UTF-8 -*-import requests

if __name__ == '__main__':
    target = 'http://gitbook.cn/'
    req = requests.get(url=target)
    print(req.text)

requests.get()方法必须设置的一个参数就是url,因为我们得告诉GET请求,我们的目标是谁,我们要获取谁的信息。运行程序看下结果:

左侧是我们程序获得的结果,右侧是我们在www.gitbook.cn网站审查元素获得的信息。我们可以看到,我们已经顺利获得了该网页的HTML信息。这就是一个最简单的爬虫实例,可能你会问,我只是爬取了这个网页的HTML信息,有什么用呢?客官稍安勿躁,接下来进入我们的实战正文。

おすすめ

転載: blog.csdn.net/m0_67373485/article/details/129763965