Microsoft Azure Machine Learning使用探索

写在前面

感谢公司提供的Microsoft Azure 机器学习平台
我不是微软的托哈,但是一用觉得,这东西太方便了吧!
最大的优点在于快速试错

上传数据集

Upload Data

添加新的实验

在页面最左下角有一个加号,点一下然后是下图:
添加新实验
选黄色的加号

然后到实验区,把输入的csv拽进来
输入

点这个训练数据集,右键选visualize可视化
可视化

众所周知Titanic数据集里有PClass这个字段,表示做急等藏,PClass可视化如下图
PClass
其实PClass是个离散型变量,但是Microsoft Azure检测不出来。没关系,不影响看。
再来看一个连续型变量:
连续型变量

  • 可以自己设定分箱的箱数
  • 可以对x轴取对数
  • 可以对y 轴取对数
  • 可以画密度曲线
  • 缺失值处理

    如何看变量是否有缺失值
    查看缺失值

    我就在想处理缺失值的模块是什么呢,然后搜了一下 missing,就发现这个clean missing data模块了
    查找与缺失值处理相关的模块

    缺失值处理模块
    突然接触这个模块我是不知道它怎么用的,那怎么办呢?就点这个模块,右键 有个?help选项,选它就会弹出这个模块使用的说明
    缺失值处理
    我选了Age和Cabin列,然后再选择缺失值处理方法,那么这个缺失值处理方法就作用于选中的所有列
    如果想对选中的列进行不同的缺失值处理方法,那么只能顺序拼接不同的clean missing data模块
    clean data
    用户提示很友好,右键能看出来,第一个输出(圈1)返回的是经过缺失值处理后的数据,(圈2)返回的是这个缺失值处理模块(方便以后服用)

    分割数据集 Split Data

    分割数据集
    Split Data 有1 和2 两个出口,据我看的别的Demo左边的1口是训练集,右边的2口是测试集

    扫描二维码关注公众号,回复: 1152775 查看本文章

    模型训练 Train Model

    如图所示,TrainModel模块左入口是模型,右入口是训练集

    对验证集打分 Score Model

    Score Model的左1入口是Train Model,右一入口是验证集
    Score Model可视化:
    在Score Model模块右键选圈1选Visualize,可见下图
    Scored
    Scored Labels是指预测的标签(左边有真实标签那列,一张图放不下就没截图);
    Scored Probabilitites是指模型推断的把握比如说第二行: 有0.999579的把握推断标签为1

    比较两个模型 Evaluate Model

    Evaluate的输入是两个不同的Score Model,如下图
    Evaluate

    点Evaluate Model,右键选圈一选可视化,可以看到下图
    可视化

  • 可以从ROC曲线,PRECISION/RECALL,LIFT等多个维度去看。 选蓝色或者红色的图例可以切换模型。蓝色对应左入口的模型,红色对应右入口的模型
  • 可以看到混淆矩阵
  • 可以分箱地看预测结果
  • 更多例子

    更多例子用户可以去 AI Gallary里面看

    猜你喜欢

    转载自blog.csdn.net/u011462357/article/details/79723342