AI:开始学习AI--第一课 Machine Learning 。二,使用预测数据模型。
ML环境创建完成之后,要开始第一个实验如何使用外部数据模型。
在Azure Machine Learning中找到DATASETS 然后单击Samples,能看到如下数据。
- 但这次要学习的,使用的之前下载的exercise.csv 这是MPP网站下载,由于要考试而使用的数据,下载地址,我上传到CSDN下载区域。可以在这里下载:https://download.csdn.net/download/jason_dct/10372910
- 开始上传数据:
- 在Datasets处单击 New --上传数据--找到 exercise.csv 上传数据。之后把文件里的calories.csv也上传了。
- 上传成功之后如下图。
- 下面我们在原来的数据基础上创建一个新的示例。
- 单击,Experiments 单击New 在弹出的新页面里单击 Blank experiment, 找到刚刚上传的数据集如下图所示。
- 打开左侧TreeView,展开Saved Datasets 再展开 My Datasets。找到上传的数据,把exercise.csv 和calories.csv 拖到中间面板。
- 验证数据,单击exercise.csv 下标题的visualize,出现如下图效果,看下性别,身高及心律情况。
- 下面要做的事,是把两个数据集连接起来。在搜索的位置添加Join Data。直接把Join Data 链接控件拖进来。分别把exercise.cs和calories.csv 连进来。这里在没有关联完成之前,Join Data 有红色的叹号。
- 然后配置数据,在左侧找到Launch Column Selector,单击之后出现下图,要查的列拖到右侧。这里选择关联的字段是User_ID。这里选好之后,要选择另一个数据源,就是calories.csv.
- 在选择另外一个数据源的时候,要注意规则,下图选择的规则是列包含User_ID.
- 然后点击对勾数据管理以及完成,之前出现的红色叹号也已经消失。注意为了是卡路里的计算更为准确,数据量更大。选择左外连接(Left outer join),为了是数据更准确,选择把默认的 Key right column 的勾点掉。
- 配置完成之后的效果:
- 这个是数据关联已经配置完成,单击下面的Run,执行一下刚才的配置。配额完成之后,查看卡路里数据。单击Join Data 控件下的1出现了visualize。出现下图,证明已经获得自己所有的数据。然后开始分析,人们在锻炼时,不同阶段,不同的指标消耗的卡路里。
- 之后为了方便导出,我再使用Data Format Coversions下的 Convert to CSV 工具导出方面我们查看的数据。把Convert to CSV按钮拖到中间。然后单击下侧的Run。
- 在运行成功之后,单击Convert to CSV按钮,找到Open in new Notebook 选择python 3
- Python 3代码,当然也可以选择C#,Java ,R语言。在这个课程部分使用的Python。
from azureml import Workspace ws = Workspace() experiment = ws.experiments['689143e6396e419986281b0f9cec0f7c.f-id.f8b63ecfc57a4f438926df2617cc7b1d'] ds = experiment.get_intermediate_dataset( node_id='4fba9e4c-1aac-4b14-b552-f6dfd897e035-102', port_name='Results dataset', data_type_id='GenericCSV' ) frame = ds.to_dataframe()
整个代码页面如下。单击运行之后,可以查看如下数据。这些数据是CSV中读取的,在数据中做了外连接之后的结果。- 在开发环境里录入如下代码,生成Chart 图表
# Create a scatter plot matrix 创建一个散点图 段传涛 2018-04-26 %matplotlib inline import seaborn as sns num_cols = ["Age", "Height", "Weight", "Duration", "Heart_Rate", "Body_Temp", "Calories"] sns.pairplot(frame[num_cols], size=2)
然后单击运行,能看到我们根据不同人的锻炼结果获得卡路里数据的数据模型。- 生成图表的算法用的Python 的matplotlib 算法。关于Matplotlib 算法这里就不详细展开介绍了,详细内容可以网上搜一下或者参看这里:https://blog.csdn.net/duanchuanttao/article/details/80089491
到这里为止数据已经准备完毕,下面要建立机器学习模型。