まず、いくつかの準備がなければならない、もちろん、前提は、Pythonの基本を理解する必要があります。
インストールに必要な言語環境とツール:
1、python3.6.5 Pythonの私はバージョン使用している
3つのライブラリを要求し、2を
インストールコマンドを:要求PIP3インストール
3、美しいスープの
インストールコマンドを:PIP3はBS4インストール
4、lxmlの
インストールコマンドを:PIP3はlxmlのインストール
5は、Pycharm
IDE公式ウェブサイトのアドレスのパイソンます。https://www.jetbrains.com/pycharm/
コースは、直接、端末でエンコードされ
コードは:
Pythonプロジェクトとpycharmを作成し、そのようtest.pyとして、Pythonのファイルを作成し、後に実行するために、次のコードを貼り付けます。
import requests
from bs4 import BeautifulSoup
mheaders = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "en-US,en;q=0.9,zh-CN;q=0.8,zh-TW;q=0.7,zh;q=0.6",
"Cache-Control": "max-age=0",
"Connection": "keep-alive",
"Host": "s.weibo.com",
"Sec-Fetch-Mode": "navigate",
"Sec-Fetch-Site": "none",
"Sec-Fetch-User": "?1",
"Upgrade-Insecure-Requests": "1",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36"
}
targetUrl = 'https://s.weibo.com/top/summary?cate=realtimehot'
response = requests.get(targetUrl, headers=mheaders).text
soup = BeautifulSoup(response, 'lxml')
sort = 0
for hot_td in soup.find_all('td', class_="td-02"):
# 标题
hotTitle = hot_td.find('a').string
sort += 1
print('第%s位 %s ' % (sort, hotTitle))
結果を入力します。
簡単に説明する:
1を、要求三者ネットワークは、単純なHTTP GET \ポストの要求や他の方法を提供Pythonライブラリです。requests.get(のTargetURL、ヘッダ= mheaders)を取得ここでは代表的なモード要求を取得することです、リクエストヘッダを装っブラウザのリクエストに提供され、要求がオフ避けるためにインターセプトされます。
2、BeautifulSoupは、私たちは、クロールしたい見つけるために、代わりにHTMLタグの正規表現を使用することができます。代わってsoup.find_all( 'TD'、クラス_ = "TD-02")は、すべてのクラス= "TD-02" のtdタグのを検索します。次のように表示するページのソースをクロール見することができ、対象サイトの内容を表示するには:
<td class="td-02">
<a href="/weibo?q=%23%E6%B8%85%E6%98%8E%E8%BF%BD%E6%80%9D%E5%AE%B6%E5%9B%BD%E6%B0%B8%E5%BF%B5%23&Refer=new_time" target="_blank">清明追思家国永念
</a>
</td>
...等等....
同様に、hot_td.find(「A」)。文字列のTDタグでラベルを見つけることですが、それは我々が熱い検索のコンテンツをクロールしたいという内容が含まれます。
最後に:
このようように、次のページ、変更のIP、倉庫データを取得し、する方法として、そこに多くの実際のプロジェクトであるだけでなく、多くのことを考えるライブラリをつかむ、ここではそれはときのpython後の自習、クロールの経験です小さなデモ。
今日は、2020年には、全国の人々が今日沈黙の流行の英雄の犠牲を戦うために、4月4日、清明節です!私の心には、言ってはいけません!祖国を是非!