ミラー-58インテリジェントなデータプラットフォームアーキテクチャと可視化の実践

背景

ミラーは、視覚的なデータ・インテリジェンス・プラットフォームの大規模なデータセットに基づいてデータの製品開発プラットフォームです。従来の機械学習、非科学の専門家のためのデータモデリングプロセス、主にいくつかの側面に反映されて全体的に高いしきい値:

1.マシンは、より抽象的な概念を学びます

このようなトレーニングセット、検証セット、テストセット、機能、寸法として、ラベルは、概念を理解する必要性に加えて、カーブ、ROC曲線、混同行列、などを検証、学習曲線、具体的な使用を理解する必要があまりにもフィット、あまりフィット漏れましたシーン、メソッドを使用して。

2.機械学習モデリングプロセスの複雑

データ準備、データの前処理、統計解析、機能エンジニアリング、トレーニングモデルとモデリング、モデル評価との比較など、特定の統計分析とエンジニアリング機能では、など、特徴生成の多数を含む、変換機能、特徴選択プロセス、データを取ってほとんどの時間を採掘。

3.数学的派生開発力

おなじみのPython、Rに加えて、JavaとScalaのを使用してビッグデータ環境でも比較的高かったです。彼らのビジネスを一致させるために、独自のアルゴリズムを実装する必要があります。特に、それらのシーンのために、それは式の導出の多数、およびその他の関連する上位モデルの並列最適化機能を伴います。

 

目標

以下のようなビジネスニーズ、敏感なポリシールール、およびアルゴリズムエンジニアリング機能要員の相対的な不足、理解人のために:ビジネス、オペレーション、データの製品を、私たちは、非専門家のユーザーを定義し、豊富なモデリングの経験、優れたエンジニアリング能力とアルゴリズム、ビジネスを持っています私たちは、弱い人が専門家のユーザーとして定義されて理解しています。

ミラーの使用者は、ユーザーの両方のタイプを包含し、我々は視覚的なユーザーインターフェース、豊富なアルゴリズムのコンポーネント、便利なパラメータ調整モード、詳細な評価の比較レポート、これらの2つのタイプのために設計します。

機械学習のしきい値を減らすために非専門家のユーザーに向けたミラー客観的、データマイニングツールの業務遂行探査を加速するために、専門家のユーザをサポートしながら、その全体的なモデリングプロセスを加速します。

 

全体的なアーキテクチャ

ミラー-58インテリジェントなデータプラットフォームアーキテクチャと可視化の実践

 

 

1.ユーザシステム

OAアカウントのログインアカウントを持つ、同社の統合SSOとBSP、唯一、統一されたユーザシステムとして。

2.セキュリティシステム

統合されたマルチテナントアーキテクチャビッグデータプラットフォームは、Hadoopのへのアクセスは、コマンドがOAアカウントに基づいて実行された場合、部門を占め、次に該当するHadoopのHiveのテーブル特権アカウント、HDFSパスと対応するリソースキューを得ます。

3.リソースレイヤ

現在のデータソース、およびデータ記憶ハイブの結果に基づいて、モデルファイルは、HDFSに格納されています。計算エンジンは、スカラに基づいて、点火に基づくデータ前処理、統計分析、ロジック、スパークMLLib、アルゴリズムの一部(XGBoost、LightGBM、FM等)、サードパーティの統合から、モデルアルゴリズムのほとんどの。

4.論理層

エンジニアリングを特徴現在の論理データ・ソース/宛先を覆う層,,データ前処理、統計解析、機械学習、ツール6、70アセンブリの合計。

アプリケーション層

実験のためにプロジェクト管理、テスト管理を提供し、完全なアクセス制御を提供します。DPと統合データ管理機能は、直接彼らは許可ハイブテーブルを持つ大規模なデータプラットフォームを読み取ることができます。現在のところ、バイナリモデルの管理モデルは、包括的なモデル比較、モデルリリースおよび他の機能を提供します。

一方、ミラーは自動的に依存関係は、複数のコンポーネントを試し解決する完全なスケジューリング機能を提供し、柔軟なスケジューリングポリシーを数多く提供しています。

6.サービス層

オフラインスケジューリング:訓練されたモデルのラインの下のスケジュールの統合は、定期的に予測するために、新しいデータモデルを使用するように訓練されたオフラインスケジューリングサービスを形成することができます。次の図は、スケジューリングオフラインのフローチャートを示しています。

 

ミラー-58インテリジェントなデータプラットフォームアーキテクチャと可視化の実践

 

 

オンライン予測:結合モデルリリース、モデルの相関は、ユーザーにリアルタイム予測のためのHTTPインターフェースを使用する能力を提供するために、オフラインの出版モデルを訓練することができます。

 

依存スケジューリング

コンポーネント間の依存関係のために、以下のスケジュール、順序はすぐにそれをどのような方法、それらの実行に決定しますか?

 

ミラー-58インテリジェントなデータプラットフォームアーキテクチャと可視化の実践

 

 

伝統的な考え方は、再帰的に使用されている我々トポロジカルソート同様単に横要素内部の座標を決定する、二次元アレイ状に相互依存を変換するため、全ての0を迅速に決定することができるされているミラーに依存関係が決まり次のタスクは、計算量を減らすこと、ノードを実行する演算速度を向上しようとしています。

 

ミラー-58インテリジェントなデータプラットフォームアーキテクチャと可視化の実践

 

 

特徴生成

フィーチャーエンジニアリングは、特徴生成時間を短縮する方法を、全データマイニング時間のほとんどを占めており、プロジェクトの世代の特徴とその内部の時間の大半を占めるミラーの主要な関心事です。

エキスパートユーザは、一般的に、良いFeatureToolsあるサードパーティのPythonライブラリ実装の特徴生成を使用するエンティティ関係、関連するエンティティを提供し、重合転化方法を選択した後、良好な特性を自動的説明発生させることができました。

PythonのフレームワークPythonや並列のベースのスタンドアロンバージョンを実行するために、直接DPを統合することができず、クラスタに会社のリソースを使用する方法は、このような背景をもとに、存在しない、壁に鏡には、以下の設計を行いました。

 

ミラー-58インテリジェントなデータプラットフォームアーキテクチャと可視化の実践

 

 

思考の推力は次のとおりです。データ駆動型計算。

1.データ定義

需要定义好特征主表以及各特征子表,主表和子表之间需要通过关联字段进行关联。

2. 数据切分

按主表主键将主表数据以及关联的子表数据进行切分,按照规则生成在指定的HDFS目录中。

3. 分布执行

使用Spark定义序列,并将序列号作为Python函数参数,传入到特征生成函数中。各路径中的数据由各自指定的Python进程进行运算并存储。

4. 汇总结果

由Spark的Driver进程汇总各Python进程的执行结果,进行最终输出。

总结:利用集群的分布式计算能力加快了生成速度,同时利用了Python的第三方库能力进行了功能扩展。

 

自动建模(二分类)

目前业界对自动学习部分的支持力度越来越大,不仅国内的阿里PAI、第四范式,国外的H2O、TransmogrifAI 等也做得很深入。

更有甚者DataRobot完全针对非专家用户提供一键式运行,内部集成了数据预处理、特征生成、特征转换、特征选择等特征工程,内部更是集成了Spark、Python、R等等多种模型算法,算法并行执行、自动选择最优算法,并完成了模型一键部署以及模型部署后的效果跟踪。

魔镜也实现了类似的尝试,目标是针对非专家用户生成基线模型。

整体流程如下:

 

ミラー-58インテリジェントなデータプラットフォームアーキテクチャと可視化の実践

 

 

1. 数据预处理

对特征维度进行统计,删除缺失值大于90%的特征。并对剩余特征按照60%、20%、20%的比例进行切分,分别作为训练集、验证机和测试集。

2. 特征工程

分别针对数值特征、非数值特征以及树形模型、非树形模型做了不同处理。

3. 模型训练

目前集成了4类算法(RF、GBDT、LR、XGBoost),分别针对每类算法提供了一组默认的参数组合,利用Spark的分布式能力,对各算法的各参数组合(网格式),在60%训练集以及20验证集上并行运行。

4. 评估报告

将各模型的结果按照评估指标进行排序,在评估报告中分别显示各算法的具体效果。提取最优模型的训练参数在前80%的数据上进行训练,并在最终20%测试集上进行最终效果评估。

 

展望

后期会在集成云窗调度、高维特征支持、Python模型支持、模型在线预测上进一步展开。

おすすめ

転載: www.cnblogs.com/cuiyubo/p/11297310.html