AI:开始学习AI--第一课 Machine Learning 。二,建立机器学习数据模型。

 AI:开始学习AI--第一课 Machine Learning 。二,使用预测数据模型。

ML环境创建完成之后,要开始第一个实验如何使用外部数据模型。

在Azure Machine Learning中找到DATASETS 然后单击Samples,能看到如下数据。


  • 但这次要学习的,使用的之前下载的exercise.csv 这是MPP网站下载,由于要考试而使用的数据,下载地址,我上传到CSDN下载区域。可以在这里下载:https://download.csdn.net/download/jason_dct/10372910
  • 开始上传数据:
  • 在Datasets处单击 New --上传数据--找到 exercise.csv 上传数据。之后把文件里的calories.csv也上传了。
  • 上传成功之后如下图。

  • 下面我们在原来的数据基础上创建一个新的示例。
  • 单击,Experiments 单击New 在弹出的新页面里单击 Blank experiment, 找到刚刚上传的数据集如下图所示。

  • 打开左侧TreeView,展开Saved Datasets 再展开 My Datasets。找到上传的数据,把exercise.csv 和calories.csv 拖到中间面板。

  • 验证数据,单击exercise.csv 下标题的visualize,出现如下图效果,看下性别,身高及心律情况。

  • 下面要做的事,是把两个数据集连接起来。在搜索的位置添加Join Data。直接把Join Data 链接控件拖进来。分别把exercise.cs和calories.csv 连进来。这里在没有关联完成之前,Join Data 有红色的叹号。

  • 然后配置数据,在左侧找到Launch Column Selector,单击之后出现下图,要查的列拖到右侧。这里选择关联的字段是User_ID。这里选好之后,要选择另一个数据源,就是calories.csv.

  • 在选择另外一个数据源的时候,要注意规则,下图选择的规则是列包含User_ID.

  • 然后点击对勾数据管理以及完成,之前出现的红色叹号也已经消失。注意为了是卡路里的计算更为准确,数据量更大。选择左外连接(Left outer join),为了是数据更准确,选择把默认的 Key right column 的勾点掉。
  • 配置完成之后的效果:

  • 这个是数据关联已经配置完成,单击下面的Run,执行一下刚才的配置。配额完成之后,查看卡路里数据。单击Join Data 控件下的1出现了visualize。出现下图,证明已经获得自己所有的数据。然后开始分析,人们在锻炼时,不同阶段,不同的指标消耗的卡路里。

  • 之后为了方便导出,我再使用Data Format Coversions下的 Convert to CSV 工具导出方面我们查看的数据。把Convert to CSV按钮拖到中间。然后单击下侧的Run。
  • 在运行成功之后,单击Convert to CSV按钮,找到Open in new Notebook 选择python 3
  • Python 3代码,当然也可以选择C#,Java ,R语言。在这个课程部分使用的Python。
  • from azureml import Workspace
    ws = Workspace()
    experiment = ws.experiments['689143e6396e419986281b0f9cec0f7c.f-id.f8b63ecfc57a4f438926df2617cc7b1d']
    ds = experiment.get_intermediate_dataset(
        node_id='4fba9e4c-1aac-4b14-b552-f6dfd897e035-102',
        port_name='Results dataset',
        data_type_id='GenericCSV'
    )
    frame = ds.to_dataframe()
    整个代码页面如下。单击运行之后,可以查看如下数据。这些数据是CSV中读取的,在数据中做了外连接之后的结果。

  • 在开发环境里录入如下代码,生成Chart 图表
  • # Create a scatter plot matrix 创建一个散点图 段传涛 2018-04-26
    %matplotlib inline 
    
    
    import seaborn as sns  
    num_cols = ["Age", "Height", "Weight", "Duration",
                "Heart_Rate", "Body_Temp", "Calories"] 
    sns.pairplot(frame[num_cols], size=2)
    然后单击运行,能看到我们根据不同人的锻炼结果获得卡路里数据的数据模型。

  • 生成图表的算法用的Python 的matplotlib 算法。关于Matplotlib 算法这里就不详细展开介绍了,详细内容可以网上搜一下或者参看这里:https://blog.csdn.net/duanchuanttao/article/details/80089491

到这里为止数据已经准备完毕,下面要建立机器学习模型。

猜你喜欢

转载自blog.csdn.net/jason_dct/article/details/80077307
今日推荐