白はすぐに爬虫類クロールシーナトレンドを体験します

まず、いくつかの準備がなければならない、もちろん、前提は、Pythonの基本を理解する必要があります。

インストールに必要な言語環境とツール:
1、python3.6.5 Pythonの私はバージョン使用している
3つのライブラリを要求し、2を
インストールコマンドを:要求PIP3インストール
3、美しいスープの
インストールコマンドを:PIP3はBS4インストール
4、lxmlの
インストールコマンドを:PIP3はlxmlのインストール
5は、Pycharm
IDE公式ウェブサイトのアドレスのパイソンます。https://www.jetbrains.com/pycharm/
コースは、直接、端末でエンコードされ

コードは:
Pythonプロジェクトとpycharmを作成し、そのようtest.pyとして、Pythonのファイルを作成し、後に実行するために、次のコードを貼り付けます。

import requests
from bs4 import BeautifulSoup

mheaders = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "en-US,en;q=0.9,zh-CN;q=0.8,zh-TW;q=0.7,zh;q=0.6",
    "Cache-Control": "max-age=0",
    "Connection": "keep-alive",
    "Host": "s.weibo.com",
    "Sec-Fetch-Mode": "navigate",
    "Sec-Fetch-Site": "none",
    "Sec-Fetch-User": "?1",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36"
}

targetUrl = 'https://s.weibo.com/top/summary?cate=realtimehot'

response = requests.get(targetUrl, headers=mheaders).text
soup = BeautifulSoup(response, 'lxml')
sort = 0
for hot_td in soup.find_all('td', class_="td-02"):
    # 标题
    hotTitle = hot_td.find('a').string
    sort += 1
    print('第%s位  %s ' % (sort, hotTitle))

結果を入力します。
ここに画像を挿入説明
簡単に説明する:
1を、要求三者ネットワークは、単純なHTTP GET \ポストの要求や他の方法を提供Pythonライブラリです。requests.get(のTargetURL、ヘッダ= mheaders)を取得ここでは代表的なモード要求を取得することです、リクエストヘッダを装っブラウザのリクエストに提供され、要求がオフ避けるためにインターセプトされます。

2、BeautifulSoupは、私たちは、クロールしたい見つけるために、代わりにHTMLタグの正規表現を使用することができます。代わってsoup.find_all( 'TD'、クラス_ = "TD-02")は、すべてのクラス= "TD-02" のtdタグのを検索します。次のように表示するページのソースをクロール見することができ、対象サイトの内容を表示するには:

<td class="td-02">
   <a href="/weibo?q=%23%E6%B8%85%E6%98%8E%E8%BF%BD%E6%80%9D%E5%AE%B6%E5%9B%BD%E6%B0%B8%E5%BF%B5%23&Refer=new_time" target="_blank">清明追思家国永念
   </a>
</td>
...等等....

同様に、hot_td.find(「A」)。文字列のTDタグでラベルを見つけることですが、それは我々が熱い検索のコンテンツをクロールしたいという内容が含まれます。

最後に:
このようように、次のページ、変更のIP、倉庫データを取得し、する方法として、そこに多くの実際のプロジェクトであるだけでなく、多くのことを考えるライブラリをつかむ、ここではそれはときのpython後の自習、クロールの経験です小さなデモ。

今日は、2020年には、全国の人々が今日沈黙の流行の英雄の犠牲を戦うために、4月4日、清明節です!私の心には、言ってはいけません!祖国を是非!

リリース7件のオリジナルの記事 ウォン称賛14 ビュー20000 +

おすすめ

転載: blog.csdn.net/u010823943/article/details/105308201