爬虫類のために私たちは不慣れであってはならない、我々は最初の爬虫類の定義を見て:ウェブクローラは、それが検索エンジンの重要な一部自動化されたWebコンテンツ取得プログラムです。Webクローラーの検索エンジンは、アプリケーションが自動的にWebコンテンツを取得し、ワールド・ワイド・ウェブ(WWW)からWebページをダウンロードしてください。我々はすでに、Webページは、World Wide Webからのデータを解析され、ダウンロードすることができることを知っておくべき定義を参照してください。何そのアプリケーションシナリオでのデータ分析シナリオについて考えてみて?気象データ、用地取得の記事、チケットの様々な情報を収集し、株式情報の収集、およびたくさんのデータ解析のためのデータを収集爬虫類があるの収集。特に、業界標準のデータのために、三次元情報解析を増加させることによりデータ解析。
いくつかの言及クローラのソフトウェアエンジニアは、最初のPythonを考えます。Pythonは確かに非常に便利な開発ソフトウェアで、依存ライブラリの多数で出荷されます、あなたはすぐにいくつかのフレームワークを実現することができる抽出データ抽出にルールを記述する必要があります非常に単純なアプリケーションの爬虫類を構築することができます。私たちは爬虫類であるPowerBI気象データ用に作成されたソフトウェア収集爬虫類の話をするためにここにいます。多くの業界では、気象データは、エリアの歴史を知っているならば、あなたは豊かな寸法売上データを作ることができ、天候に影響されます。問題を決定する意思決定者のためのより良いの参照を行います。次の子が一緒にPowerBIビルド爬虫類クロール気象データ履歴を達成するために私たちを導く、例えば、小型のリチウム湖北省の主要都市になります。この場合、ネットワークからのデータソース - 天気予報、最も単純な形式でデータページはフォームです。あなたはこの記事以下同じ天気予報とIの指数を達成することができます
まず、サイトのURL構造の解析
都市URLデータのリストを決定するために1、
私が最初に天気予報Webサイト後に歴史的な天候を見つける、湖北省の主要都市の天気予報のデータを分析する、湖北省のFOUNDにクリックしてください
2、都市のURL情報を決定します
インタフェースのいずれかの都市を開き、あなたは武漢の天気履歴リストのために、毎年のコンテンツページを分けることができます。URLでのメインキャラクターは、武漢を持っています。ここでは、同法が存在し、各都市でのリンクを決定することができます。
3、月のURL情報を決定します
任意の月のマップ、リストページへの天候の月をクリックします。URLアドレスを分析することにより、我々はまた、法律を見ることができます。街の変数の気象条件でのURLのアルファベット年以上は、様々な都市で、各月の毎日を得ることができます。
第二に、本館の爬虫類
在分析URL过程中我们已经找到了网页URL的规律,因此,我们可以建立城市列表和日期列表。将两个参数引入URL,从而抓取城市不同时间的天气数据。注意,历史天气数据是回顾过去的,天气预报也是一样的分析思路。
1、建立城市列表
2、建立日期列表
在城市列表中添加开始日期
结束日期
日期,注意这里需要将日期转换为数值,提取完成后再转换为日期
展开日期列数据,将格式更改为日期类型
添加年月列
提取年和月数据用于后续切片器
删除重复项
3、将我们处理好的数据赋值到URL中
城市列表和日期列表都已经处理好了,下一步就是处理两个列表和URL的关联关系
新建URL自定义列
忽略隐私检查
展开URL列,选择Source和Data列即可
展开Data列,只保留前四列数据
删除多余的内容,筛选去除标题和空白行
拆分气温为最高和最低气温,按分隔符/拆分
去除温度符号℃,用于转换为数值
处理后
到这里我们已经完成了爬虫的数据清洗工作,接下来就开始进入可视化报告制作。
注意:由于起始日期为2011-1-1下载的数据量比较大,需要等待很长时间。大家可以将起始日期更改为2019-1-1以后的日期加载数据会比较快一点。
三、制作可视化报告
1、制作年份,月份,城市切片器。城市切片器注意设置方向为水平方向
2、气温趋势线
3、天气明细矩阵表
4、区域地图
大家可以根据自己的喜好调整不同的主题颜色
四、总结
我们顺利完成了抓取湖北省各个城市的2019年的历史天气数据。在使用PowerBI爬虫应用时需要注意的点:
1、分析URL规律是开始处理爬虫的最重要的环节
2、通过PowerBI输入数据功能建立城市列表和使用M函数建立日期列表。
3、两个列表结合处理URL地址解析对应的天气数据,通过WEB.CONTENTS提取网页内容是爬虫的核心内容。大家可以继续延伸学习M函数的使用方法。
4、在后续的文章中也会出现少量的M函数使用,编辑器中会有智能提示告诉大家使用规则,大家也可以通过微软官网查看M函数的语法。
注意:PowerBI爬虫应用不只是能够解析这种简单的结构,目前有很多的网站后台都是传递的json数据,PowerBI也是可以应对的处理的,只是需要将JSON数据转换为表格。在后续的分析情景中我会进一步来讲解爬虫应用。