基本コンセプト
モデルStudioは、エンドデータマイニング分析の終了を容易にするために、分析データマイニングツールのセットを提供する統合可視化環境、あるにSAS Viyaが含まれています。モデルStudioのサポートデータマイニングツールは、モデルのチャンピオン、スコアリングコードと結果を提供し、配布するためにSAS Viyaプログラミングおよびクラウド処理環境を利用するように設計されています。
モデルStudioは、以下の機能図を提供しています。
以下のようにモデルStudioで作成したモデルの適用:
SASモデルメーカーは、次の3つのソリューションが含まれています。
- SASビジュアル予測
- SASビジュアルデータマイニングと機械学習
- SASビジュアルテキスト分析
XXX SAS環境でSASビジュアルデータマイニングや機械学習を提供するだけ。
モデル構築
モデルスタジオ、パイプラインのノードにおいて、パイプラインは、ワークフロー、データと類似しており、ノードは、順序付けられた実行ロジックで構成することができます。導管はまた、パイプのすべての異なるモデル間のモデル選択されたタイトルを比較することができ、モデル内の複数のモデルは、導管勝者モデル内で選択することができる含んでもよいです。
以下の通りである、そしてそれはデータノードを有するパイプ。
1データ
一つのプロジェクト内のデータテーブル、および「データ」ノードは、任意のパイプラインの開始点であるノードを、必要とされます。これは、変数に関連するプロジェクトのパイプラインとデータソースに関するメタデータ情報を提供します。
参照されたデータは自動的にパイプラインに追加されます。データを交換することができます。
以下に示すように、ユーザは、文字を使用することができるデータの各列の役割を指定する必要があります。
いいえ。 |
役割名称 |
1 |
残りの |
2 |
セクション |
3 |
分類 |
4 |
パーティション |
5 |
フィルタ |
6 |
ボンド |
7 |
目標 |
8 |
オフセット |
9 |
評価します |
10 |
タイムID |
11 |
エントリー |
12 |
拒否されました |
13 |
見通し |
14 |
ID |
ノード2
以下のように分析モジュールと同様、SASビジュアルデータマイニングおよび機械学習プロジェクトで、ノードを使用することができます。
タイプ |
ノード |
説明 |
データマイニングの前処理 |
変数クラスタ |
入力変数の数を減らすためにクラスタリングを実行します。 |
変数選択 |
教師なし方法と、入力変数の数を削減する方法の選択にいくつかの監視を行います。 |
|
欠員を埋めます |
指定された欠損値及び分類部充填型入力として方法。 |
|
管理変数 |
メタデータの変数を変更します。 |
|
濾過 |
観察は、指定した基準に基づいて分析から除外しました。 |
|
クラスタリング |
クラスタリングは、データセグメントの観測に基づいて行われます。 |
|
特徴抽出 |
PCA、安定したPCA、SVDエンコーダまたは自動に基づいて生成された入力としての特性。PCA、SVDとPRCAだけ間隔入力。 |
|
置き換えます |
あるいは、そのような異常値と指定された値を持つ未知の分類レベルの他のデータ値などの値。 |
|
テキストマイニング |
解析やテーマを実行するには、モデリングの準備のためにテキストデータを見つけました。 |
|
異常検出 |
外れ値を識別し、除去するために使用されるサポートベクトルデータ記述(観察)。 |
|
変更 |
数値コンバータの入力変数やビン変換。 |
|
教師付き学習 |
分位回帰 |
分位回帰モデルは、間隔目標を取り付けました。 (モデルベースのシステムが自動的にオペレータモデルの比較演算子を追加します) |
ディシジョン・ツリー |
分類ツリーや間隔の目標として、目標の分類と回帰木の集合をフィッティング。 |
|
_1ツリー |
分位回帰モデルは、間隔目標を取り付けました。 |
|
バッチコード |
SASは、バッチコードを実行します。 |
|
評価コードのインポート |
インポートSASスコアリングコード。 |
|
森 |
異なるサンプルおよび入力決定木の異なるサブセットに基づいて複数のデータを含むフォレストモデルフィッティング、。 |
|
神経回路網 |
完全な相互接続ニューラルネットワークモデルをあてはめます。 |
|
グラデーションのアップグレード |
連続した決定木のシリーズを生成するために、勾配プロモーションモデルをあてはめます。 |
|
直線回帰 |
通常の最小二乗回帰モデルは、間隔目標を取り付けました。 |
|
ベイジアンネットワーク |
対象を分類するために、ベイジアンネットワークモデルをあてはめます。 |
|
GLM |
それぞれ、標的及び管理機能の特定の型を有する一般化線形モデルフィッティング部。 |
|
物流回帰 |
バイナリ型のカラム名またはタイプのターゲットは、物流回帰モデルをフィット。 |
|
SVM |
内点法は、特定のバイナリ型フィッティングサポートベクターマシンを最適化します。 |
|
アフタートリートメント |
統合されました |
新しいモデルを作成するために、(カテゴリターゲットのための)複数のモデルから事後確率または(インターバル目的のための)予測値関数を使用して。 |
雑多 |
保存データ |
保存ノードは、CASの論理ライブラリにパイプラインで輸出しました。 |
オープンソース |
运行Python或R代码。该代码不在CAS中执行,会创建并下载数据样本(默认10,000个观测)已避免移动大量数据。 |
|
数据探索 |
显示数据表中变量的汇总统计量和图。该节点选择变量子集来创建数据具有代表性的快照。可以选择变量来显示最重要的输入或指出具有异常统计量的“可疑变量” |
|
SAS代码 |
运行SAS代码。允许将SAS代码合并到Model Studio管道。 |
3管道
Model Studio项目可以包括一个或多个管道,而一个管道由一个数据集和多个节点组成。
一个管道中可以包括多个机器学习节点,从而通过一个管道即可训练得到多个机器学习模型。
Model Studio提供了管道模板。
4管道比较
管道比较可以在不同管道的模型之间进行比较,从而选出冠军模型。只有运行完的管道才可以参与比较。
在管道比较页面,除可以查看参与比较的模型外,也可以查看冠军模型的多项统计指标。
5注册模型
在管道中训练得到的模型需要“注册”后才可以被管理,即模型注册后,可以在“模型管理器”中管理模型。模型管理器是进行存储和管理模型的公共仓库,它可以用于模型治理和模型修改控制。
注册操作不需要配置,仅是一个“动作”。
6发布模型
模型发布后才可以在各种运行时引擎中执行。模型发布时需要指定发布目标,发布目标包括三种类型:CAS、Hadoop以及Teradata,发布目标需要先配置再使用(可以在SAS® Environment Manager中创建发布目标,可以参考http://documentation.sas.com/?docsetId=calpubdest&docsetTarget=p02scrqf37kexwn1gi60khpshifz.htm&docsetVersion=3.4&locale=zh-CN&showBanner=walkup)。
在Model Studio中可以下载模型的评分API,如下所示
类型 |
下载文件类型 |
Python |
.py |
REST |
.txt |
SAS |
.sas |
并且在下载界面提供了各类型API的示例
下载的评分代码为包含.sas程序的zip压缩包。评分代码包含了监督学习节点以及其前面的数据挖掘预处理节点。
下载得到的模型可以在Model Manager中进行导入。
在Model Manager中进行模型的评分、发布测试必须要有评分代码。
使用训练得到的模型对预留数据进行评分。