記事ディレクトリ
序文
もともとScrapyを更新したかったのですが、どうすればいいですか?難しいことではありません。公式ドキュメントを見ると、基本的には更新できます。主な理由は、クローラーの基盤が良くないと、Scrapyを上手くプレイできないからです。そして、ほとんどの人にとって、scrapyのインストールは問題になる可能性があります。これは、いくつかの歴史的な問題があるためです。結局のところ、これはpython2の古いフレームワークです。もちろん、別の理由もあります。私がやりたいのは、scrapyを使用できないことです。scrapyを使用できるのであれば、分散クローラーである必要がありますが、ここで実行したいのは、クライアント、つまり、スパイダーコレクションソフトウェアなので、このスクレイプは使用できません。
目標
今日私たちがやろうとしているのは天気を取得することであり、使用されるAPIはChinaWeatherNetworkです。
BaseUrl = "http://wthrcdn.etouch.cn/weather_mini?city={}"
中国のウェザーネットワークを直接クロールするクローラーもオンラインでたくさんありますが、私にはわかりません。なぜWebページにアクセスしてから、xpathまたは通常のデータにアクセスする必要があるのでしょうか。同じAPIが使用されていますが、レンダリングされた結果からデータを逆解析するためにページに移動するのはなぜですか?データを直接取得できますか?
リクエストフォーマット
ここに戻ると、インターフェースはgetリクエストです。次に、cityまたはnumberをcityのフィールドに入力するだけで、結果はjsonになります。これを辞書に変換すると、次のようになります。
{
'data':
{
'yesterday':
{
'date': '5日星期六', 'high': '高温 16℃', 'fx': '东北风', 'low': '低温 9℃', 'fl': '<![CDATA[3级]]>', 'type': '多云'},
'city': '九江',
'forecast': [{
'date': '6日星期天', 'high': '高温 12℃', 'fengli': '<![CDATA[3级]]>', 'low': '低温 7℃', 'fengxiang': '东北风', 'type': '中雨'},
{
'date': '7日星期一', 'high': '高温 14℃', 'fengli': '<![CDATA[2级]]>', 'low': '低温 7℃', 'fengxiang': '北风', 'type': '多云'},
{
'date': '8日星期二', 'high': '高温 19℃', 'fengli': '<![CDATA[2级]]>', 'low': '低温 8℃', 'fengxiang': '东南风', 'type': '晴'},
{
'date': '9日星期三', 'high': '高温 21℃', 'fengli': '<![CDATA[2级]]>', 'low': '低温 11℃', 'fengxiang': '东南风', 'type': '晴'},
{
'date': '10日星期四', 'high': '高温 23℃', 'fengli': '<![CDATA[1级]]>', 'low': '低温 11℃', 'fengxiang': '南风', 'type': '多云'}
],
'ganmao': '感冒多发期,适当减少外出频率,适量补充水分,适当增减衣物。', 'wendu': '8'}, 'status': 1000, 'desc': 'OK'}
リクエスト制限
ここで、China WeatherNetworkyydsのインターフェースにはまったく制限がないことを言わなければなりません。なぜ、私がやりたいのは、郡の町、中国の大小の数千の郡の町を含む全国の気象情報を取得し、期間ごとに分析することです。したがって、毎日のリクエスト訪問は少なくとも2週間から始まります。限界がある場合は、アンチクライミングを逆にする必要がありますが、私のテストでは問題ありません。
非同期フェッチを要求します
さあ、最初に比較してみましょう。比較しなくても害はありません。非常に単純なので、コードに直接アクセスします。
import requests
from datetime import datetime
class GetWeather(object):
urlWheather = "http://wthrcdn.etouch.cn/weather_mini?city={}"
requests = requests
error = {
}
today = datetime.today().day
weekday = datetime.today().weekday()
week = {
0:"星期一",1:"星期二",2:"星期三",3:"星期四",4:"星期五",5:"星期六",6:"星期天"}
def __getday(self)->str:
day = str(self.today)+"日"+self.week.get(self.weekday)
return day
def get_today_wheather(self,city:str)->dict:
data = self.getweather(city)
data = data.get("data").get("forecast")
today = self.__getday()
for today_w in data:
if(today_w.get("date")==today):
return today_w
def getweather(self,city:str,timeout:int=3)->dict:
url = self.urlWheather.format(city)
try:
resp = self.requests.get(url,timeout=timeout)
jsondata = resp.json()
return jsondata
except Exception as e:
self.error['error'] = "天气获取异常"
return self.error
def getweathers(self,citys:list,timeout:int=3):
wheathers_data = {
}
for city in citys:
url = self.urlWheather.format(city)
try:
resp = self.requests.get(url=url,timeout=timeout)
wheather_data = resp.json()
wheathers_data[city]=wheather_data
except Exception as e:
self.error['error'] = "天气获取异常"
return self.error
return wheathers_data
if __name__ == '__main__':
getwheather = GetWeather()
start = time.time()
times = 1
for i in range(5000):
data = getwheather.get_today_wheather("九江")
if((times%100==0)):
print(data,"第",times,"次访问")
times+=1
print("访问",times,"次耗时",time.time()-start,"秒")
このコードでは、単純なカプセル化を行いました。
結果を見てみましょう。5000回の訪問にはどのくらい時間がかかりましたか?
ここで私は同じ都市九江を5000回訪れました
非同期フェッチ
このコードをカプセル化していないので、面倒に見えます。
ここに注意すべきいくつかのポイントがあります
システム上限
このため、非同期は依然として使用されるオペレーティングシステムの最下層であり、このコルーチンは非同期であり、継続的に切り替える必要があるため、この同時実行には上限があります。Python独自のマルチスレッドに少し似ていますが、この「マルチスレッド」はIOが完了したときにのみ切り替わり、それ以外の場合は切り替わりません。
だからよ、それを制限する
コーディング
import time
import aiohttp
from datetime import datetime
import asyncio
BaseUrl = "http://wthrcdn.etouch.cn/weather_mini?city={}"
WeekIndex = {
0:"星期一",1:"星期二",2:"星期三",3:"星期四",4:"星期五",5:"星期六",6:"星期天"}
today = datetime.today().day
day = str(today)+"日"+WeekIndex.get(datetime.today().weekday())
TIMES = 0
async def request(city:str,semaphore:asyncio.Semaphore,timeout:int = 3):
url = BaseUrl.format(city)
try:
async with semaphore:
async with aiohttp.request("GET", url) as resp:
data = await resp.json(content_type='')
return data
except Exception as e:
raise e
def getwheater(task):
data = task.result()
return data
def get_today_weather(task):
global TIMES
data = task.result() #得到返回结果
data = data.get("data").get("forecast")
for today_w in data:
if (today_w.get("date") == day):
TIMES+=1#只有IO操作的时候才会切换,所以这个++操作还是一个原子性操作
if(TIMES%100==0):
print(today_w,"第",TIMES,"次访问")
return today_w
if __name__ == '__main__':
semaphore = asyncio.Semaphore(500)
#操作系统上限是同一个时刻509/1024个并发,windows509 linux 1024
start = time.time()
tasks = []
for i in range(5000):
c = request("九江",semaphore,3)
task = asyncio.ensure_future(c)
task.add_done_callback(get_today_weather)
tasks.append(task)
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))
print("耗时",time.time() - start,"秒")