データの人々が知っておくべき機械学習プラットフォーム

著者について

@飞狐冲冲

中国の有名な中央企業でデータマイニングと分析関連の作業を担当し、かつてJD.comやMeituanなどの大規模なインターネット企業でアルゴリズムエンジニアとして働いていました。彼は特定のアルゴリズム開発の経験があります。

01なぜ機械学習プラットフォームが必要なのですか?

今日の社会におけるビッグデータと人工知能技術がさまざまな分野の急速な発展を後押ししていることは誰もが知っています。大手企業は機械学習アルゴリズムを使用して、ビジネスの背後にあるビジネス価値を掘り起こし、AI製品を作成し、データを迅速に利益に変換しています。

したがって、ビジネス、データ、およびアルゴリズムは、AI製品の3つの重要な要素になっています。データのアルゴリズムモデリングを通じて、ビジネスに力が与えられ、価値が生み出されます。次の図に示すように、アルゴリズムの知識がほとんどない学生は、アルゴリズム開発には通常、データ準備、機能エンジニアリング、アルゴリズムモデリング、モデル評価、モデルチューニング、モデル展開、およびモデル監視が含まれることを知っています。
データの人々が知っておくべき機械学習プラットフォーム

アルゴリズム開発の全過程から、アルゴリズム開発と応用の全過程において、実際には機械学習自体とはあまり関係がないが、他の工学分野と強く関連しており、一般的に使用されているものがたくさんあることがわかります。モデルの展開、タスクの監視、モデルの視覚化など、環境の構築やリソースのスケジューリングも含まれます。したがって、面倒なエンジニアリング開発を取り除く方法、機械学習を迅速に適用して一般的な機能を提供する方法は、機械学習プラットフォームの概念の意味になっています。

02用語集

誰もが理解しやすく、混乱しないようにするために、ここでは機械学習プラットフォームに関連する用語について説明します。

機械学習アルゴリズム。アルゴリズムと略され、さまざまなプログラミング言語を使用して構築されたアルゴリズムを指します。ほとんどの場合、特定のビジネスとは関係ありません。これには主に、統計的手法、従来の機械学習アルゴリズム、深層学習、さらには特定の数学的ルールが含まれます。たとえば、教師なしK-meansクラスタリングアルゴリズム、教師ありLR、ランダムフォレスト、GBDTおよびその他のアルゴリズム、DNN、RNN深層学習およびその他のアルゴリズム。

機械学習モデル。モデルと呼ばれるこれは、特定のビジネスに強く依存し、ビジネスに強く関連する新しいデータを直接予測するために使用される一連のアルゴリズムパラメーターのコレクションです。通常、機械学習アルゴリズムを使用する必要があります。財務リスク管理モデル、推奨モデル、広告クリック率モデル、売上予測モデルなど。

機械学習フレームワーク。機械学習ランタイム環境とも呼ばれます。Tensorflow、MxNetなど、機械学習アルゴリズムの記述、モデルトレーニング、モデルアプリケーションを直接提供できるソフトウェアシステムを指します。これらのフレームワークは、コンピューティングリソースとストレージリソースを直接スケジュールします。およびそれらの動作メカニズムと特定のビジネスシナリオは関係ありません。

機械学習プラットフォーム。上で説明したように、機械学習モデリングプロセス全体はプラットフォーム化によってカプセル化され、ユーザーはアルゴリズム開発に主流の機械学習フレームワークを使用でき、ほとんどが視覚的な構築プロセスを提供します。たとえば、Alibaba Cloud PAI、Tencent Ti-MLなど(後で詳しく説明します)。その目的は、機械学習をエンジニアリングに迅速に適用し、価値を生み出すことを可能にすることです。

03機械学習プラットフォームの機能

機械学習プラットフォームは、アルゴリズムの開発、共有、モデルトレーニング、デプロイ、モニタリングなどのワンストップアルゴリズムサービスをサポートできます。その一般的なフレームワークと機能を上の図に示します。その機能には、主に多数の組み込みの基本が含まれます。アルゴリズム、統合データ管理、統合運用環境、ビジュアルモデリング、モデルの再利用なども、これに基づいてアルゴリズムスーパーマーケット開発沈殿ソリューションに使用できます。ここでは主にビジュアルモデリングを紹介します。

データの人々が知っておくべき機械学習プラットフォーム

ビジュアルモデリングは、プログラミング言語(Python、Javaなど)を使用してアルゴリズムを開発するアルゴリズムエンジニアとは異なります。ドラッグアンドドロップでデータからグラフィックスへのマッピングを完了し、ユーザーが直感的にデータを操作および探索できるようにします。以下に示すように:

データの人々が知っておくべき機械学習プラットフォーム

データの人々が知っておくべき機械学習プラットフォーム

ビジュアルモデリングにより、ユーザーは、プラットフォーム内のデータ処理とアルゴリズムノードに基づいて、機械学習、ディープラーニング、自然言語処理、その他のアルゴリズムモデルの構築をすばやく完了し、データの関連付けとモデル予測の機能を実現できます。これにより、モデリング作業を専門のアルゴリズムエンジニアに依存することが減り、アルゴリズム開発がよりインテリジェントで効率的になります。

04業界の機械学習プラットフォームの紹介

業界でよく知られている機械学習プラットフォームには、Alibaba Cloud PAI、Tencent Ti-ML、Prophet of the Four Normal Form、Merrill LynchTempoなどがあります。

4.1 Alibaba Cloud PAI

Alibaba Cloud PAIは現在、中国で最も広く使用されている機械学習プラットフォームであり、中国で最も強力なプラットフォームの1つとしても認識されています。主な利点は次のとおりです。

1.マルチフレームサポート

2.多言語の間接サポート(Pythonプログラミングエントリはデフォルトで提供されますが、他の言語は独自のオペレーティング環境を提供する必要があります)

3. AlibabaCloudは高度に統合されています

4.豊富なAPIインターフェース

データの人々が知っておくべき機械学習プラットフォーム

4.2 Tencent Ti-ML

Ti-MLには、機械学習プラットフォームの3つの自己製品が含まれています。

(1)ワンストップの機械学習プラットフォームであるTi-ONEは、機械学習プログラムを自動的に構築するAutoML機能を提供します。

(2)顧客の機械学習プログラムに従ってリソース需要の推論とスケジューリングを自動的に実行するTi-EMS;(3)Ti-Insightは、業界のニーズに応じて、さまざまな主流の機械学習シナリオとユーザーを組み込んでいますテンプレートを直接作成して、独自の機械学習アプリケーションを構築できます。

Tencentは比較的遅れて機械学習プラットフォームを立ち上げましたが、その機能と位置付けはAlibaba CloudPAIと同じです。主な利点は次のとおりです。

1.マルチフレームのサポート。

2.多言語の間接サポート。

3. TencentCloudは高度に統合されています。

4.リッチAPIなど

データの人々が知っておくべき機械学習プラットフォーム

4.3第4正規形の預言者

4番目のパラダイム企業は、機械学習プラットフォームを専門とするAIテクノロジーおよびサービスプロバイダーです。Prophetは、中国で最も公開されている機械学習プラットフォームの1つです。国際的な権威ある研究機関であるIDCは、最初の「IDC MarketScape:中国機械学習開発プラットフォーム市場評価」をリリースしました。

評価結果は、第4パラダイムの市場シェアが中国で第1位であり、機械学習プラットフォームのマーケットリーダーであることを示しています。主な利点は次のとおりです。

1.自己完結型で、通常は独立して簡単に展開できます。

2.機械学習を専門とする国内の営利企業は、通常、二次開発サービスを便利に提供できます。

3.自己開発のGDBTコンピューティングのパフォーマンス、大規模なデータの処理、および高次元の機能には、明らかな利点があります。

4.4メリルリンチのテンポ

メリルリンチは1998年に設立され、比較的長い間設立されてきました。同社は大規模ではありませんが、データ分析の分野ですでに多くのことを蓄積しています。

その中で、TempoData機械学習プラットフォームはその主な製品であり、その主な利点は次のとおりです。

1.参入障壁が低く、機能の複雑さはAlibaba CloudPAIよりもはるかに低くなっています。

2.プロのビジネスサービス会社として、二次開発に便利です。

データの人々が知っておくべき機械学習プラットフォーム

また、ここでは紹介しないBaidu EasyDL、JiuzhangYunjiなどがあります。

05終了

機械学習プラットフォームのほとんどは、初期の段階で社内で広く使用されていました。人工知能やビッグデータテクノロジーの人気により、製品の成熟度が徐々に高まり、最終的に販売されました。AIアプリケーションに基づく機械学習プラットフォームは、ビジネスイノベーションを迅速に実践するための基盤であり、アルゴリズムエンジニアが面倒なエンジニアリング開発を取り除くのに役立つだけでなく、限られたエネルギーを独自の優れたアルゴリズム戦略の反復に集中させることもできます。専門家ではないIT担当者がビジュアルモデリングを実行できるようにすることで、AI開発のしきい値を削減します。

上記の内容は、個人的な理解のために要約されています。何かおかしいことがあったら訂正してください、ありがとうございました~~

データ担当者の私的な場所は、データ担当者の成長を支援する大家族であり、データに関心のあるパートナーが学習の方向性を明確にし、スキルを正確に向上させるのに役立ちます。私に従って、データの魔法の謎を探検してください

1.「データ製品」に戻り、<ビッグファクトリーからのデータ製品に関するインタビューの質問>を取得します。

2.「データセンター」に戻り、<Dachangデータセンター情報>を取得します。

3.「ビジネス分析」に戻り、<Dachangビジネス分析インタビューの質問>を取得します。

4.「友達を作る」に戻り、交換グループに参加して、より多くのデータパートナーについて知りましょう。

おすすめ

転載: blog.51cto.com/13526224/2607896