課題2:探索的データ分析
この課題では、関心のあるデータセットを特定し、探索的分析を行って、データの形状と構造をよりよく理解し、初期の問題を調査し、予備的な洞察と仮説を立てます。最終的な提出物は、分析中に得られた重要な洞察を伝える注釈付きおよび/またはサブタイトル付きの視覚化で構成されるレポートの形式を取ります。
一、データ選択
このデータセットには、NOAAのDaily Global Historical ClimatologyNetworkによって提供された2017年の米国の毎日の天気予報が含まれています。データが変換されました。測定値がまばらな一部の気象ステーションが除外されました。各列の説明は次のとおりです。
列名 | 説明 |
---|---|
駅 | ウェザーステーション名 |
状態 | 州の略語 |
緯度 | 緯度 |
経度 | 経度 |
標高 | 高度 |
日付 | モニタリング日 |
TMIN | 最低温度(F) |
TMAX | 最高温度(F) |
TAVG | 平均気温(F) |
AWND | 1日の平均風速(1時間あたりのマイル数) |
WDF5 | 最速の5秒風向(度) |
WSF5 | 最速の5秒の風速(マイル/時) |
雪 | 降雪(インチ) |
SNWD | 雪の深さ(インチ) |
PRCP | 降水量(インチ) |
1.1データ品質の問題
まず、weather.csvの各列の内容を確認し、次の質問を確認して、対応する回答を探します。
- 緯度の値は両方とも正であり、経度の値は両方とも負です。
回答:緯度の場合、データは赤道を0ポイントとして選択し、北半球の緯度は正、南半球の緯度は負です。経度の場合、データは元の子午線を0ポイントとして選択し、東の経度は正、西の経度は負です。 - 時間データの範囲は2017.01.01〜2017.09.21で、9月は4分の3未満、30日未満です。また、各月と四半期の日数は完全に同じではないため、合計を使用して四半期または月に基づいてデータを計算することは不合理です。降雨量と降雪量の経時変化を視覚化する場合は、平均値など、日数とは関係のないデータを使用するのが最適です。返事する。
- TMIN、TMAX、およびTAVG列に多くのヌル値があることが観察されます。これは、測定またはデータの損失なしにその日の気象ステーションの障害が原因である可能性があります。
- 一部の気象ステーションのみがAWND、WDF5、WSF5情報を持っており、AWNDを備えた一部の気象ステーションのみがWDF5、WSF5情報を持っていることが観察されています。
- ほとんどの気象観測所にはSNWDおよびPRCP情報があり、いくつかにはSNOW情報があります。
上記のいずれかの列の値がNULLである情報については、無視する簡単な方法が採用され、この列の情報のみが視覚化とデータマイニングに使用されます。
1.2調査すべき最初の質問
- 降雨量と緯度と経度の関係は何ですか
- 降雪量と緯度と経度の関係は何ですか
- 風速と雨・雪の関係は?
二、探索的視覚分析
次に、データセットの探索的分析のためのツールタブローを選択します
2.1データセットの変数と分布
2.1.1ウェザーステーションデータ
まず、気象観測所が緯度と経度に応じて地図上に表示されます。気象観測所は主に米国の東西に分布しており、中央部はあまり分布していない
ことがわかります。特定の気象観測所にマウスを移動すると、気象観測所の緯度と経度が表示されます。
気象観測所の総数は州ごとに数えられ、次のように地図上に視覚化されます。
気象観測所の数が最も多い州はユタ州であり、東部の気象観測所の数は多いものの、東部の州は規模が小さいため、はっきりとわかります。セントラルよりも多くの気象観測所がありますが、各州の気象観測所は少なくなっています。
分析する米国本土を選択し、次のように衛星クラウド画像に気象観測所の場所を表示します。
インターネットで、アメリカ西部は山岳地帯、中部は比較的乾燥していて、東部は生き残りに適しており、経済が発展していることがわかりました。これは、東西に気象観測所が多い理由をある程度説明することができます。東部は経済が発達しており、人々は気象予報と高精度の要件に対する需要が高いため、人々の生産と生活を確保するには、密集した気象観測所が必要です。西部地域は山岳地帯です。 、人口密度が低く、生態系が良好で、標高差が大きく、近距離で気温などのデータが大きく変化する可能性があるため、モニタリングの精度を確保するためには、より多くの気象観測所が必要です。
毎日収集される気象観測所データ数の統計:
2017年9月18日から21日までに収集された気象観測所データ数が大幅に減少し、それ以外の時間に収集された気象観測所データ数は基本的に同じであることがわかります。縦軸範囲を1500〜1675に縮小すると、他の時間に収集されるウェザーステーションデータの数がフラットではなく、一定の変動があることがわかります。これはデータ品質の問題です。
2.1.2温度データ
TMIN、TMAX、およびTAVGデータを使用して、ボックスプロットチャートを描画し、その分布を観察して、異常値があるかどうかを確認します
。TMIN:
-147.8°F = -99.8888889°Cの異常値があります。
温度は非常に低く、極端な天候に属します。
地図上でそれを視覚化すると、気象ステーションが米国のアラスカにあることがわかります
。気象ステーションの年間TMIN、TMAX、およびTAVGの経時変化を折れ線グラフで示し
ます。9月11日のデータと他の値との間に大きな偏差があることがわかります。データは間違ったデータであるはずなので、クリーンアップされ、残りのデータは後続の処理に使用されます。 。
年間平均気温と緯度と経度の関係をプロットし
ます。緯度が上がると温度が徐々に下がり、西部の山岳地帯の気温は一般に同じ緯度の他の地域よりも低くなることがわかります。
2.1.3風のデータ
次のように、地図上で年間平均風速データを視覚化します。
いくつかの気象観測所の記録された風速が非常に高いことがわかります。分析のために、年間平均風速が最も高いsenorita Divide#2気象観測所の風速情報を選択します。平均風速は時間とともに変化します。の変化は次のとおりです。
1年のほとんどの日の気象観測所の平均風速は70〜100 mphの間に維持され、風速がこの範囲外にあった時間はごくわずかでした。
月平均風速でプロットすると、1月から3月までの平均風速は上昇傾向にあり、3月にピークになり、その後3月から5月にかけて下降傾向にあり、1月が最も低い月平均風速であることがわかります。
VERO BEACH INTL APステーションを選択して、月平均風向と最速5秒風の風速の関係を次のように視覚化します。
1月から2月の最速風速は低く、主に南西風で、3月から9月が最速であることがわかります。風速は比較的速く、風は主に南東からです。地理的な知識によると、この地域はモンスーン気候であり、風向、気温、降雨量はすべて時間の経過とともに明らかな変化があることがわかります。
2.1.4雨と雪のデータ
まず、地図上で降雪量を視覚化します。色が濃いほど総降雪量が多くなります。視覚化
すると、緯度が高くなるにつれて降雪量が増える傾向にあることがわかります。東海岸は西海岸よりも雪が多いです。同じエリア内の他のエリアよりも降雪量が多く、ドットの大きさで積雪の深さを示しています。降雪量と積雪量は、同じマップ上に次のように表示されます。
通常の状況では、平均積雪量は降雪量によって変化することがわかります。しかし、アラスカでは降雪量は少ないものの、比較的雪量が多いため、アラスカは高緯度地域に位置し、年平均気温が低いため、低温地域では雪が溶けにくい。 、積もりやすく雪ができます。
同様に、次のようにマップ上の年間総降雨量を視覚化します。
オンラインで見つかったアメリカの気候タイプの分布マップを比較します。
東部地域の温帯広葉樹林気候、亜熱帯常緑広葉樹林気候、温帯海洋気候、高原山岳気候には降雨量が多く、
亜熱帯砂漠・草原気候、温帯草原気候、温暖砂漠気候には降雨量が多いことがわかります。この地域の降雨量は少なく、これは各気候の定義と一致しています。
降雨量は年間の特徴が明らかであるため、MONT JOLIの降雨量と降雪量のデータを分析対象として選択します。
3月以前は、降雨量と降雪量が多い地域で、降雨量と降雪量が変化していることがわかります。傾向はほぼ同じですが、4月以降は4月と5月の降雨量はまだ多いのですが、降雪量は非常に少なくなっています。これは、時が経つにつれ、直射日光が徐々に南に向かうためです。気温が上がると降雪の温度条件に達することができなくなり、降水は主に雨の形をとります。
2.2最初の質問への回答
上記の分析とデータの視覚化の後、提起された3つの最初の質問は、より包括的かつ確実に回答されました。
3、要約と経験
この実験では、tableauツールを使用してweather.csvデータファイルを視覚化し、最初にtableauの使用法を理解して習得し、データの視覚化についてより深く理解し、将来の視覚化の学習と実践の基礎を築きました。