機械学習チャンネルとは何ですか?どのように作成するには?

著者:chen_h
マイクロ・シグナル&QQ:862251340
マイクロチャネル公共数:coderpai


機械学習パイプラインに泊まりました

ヘルプ自動化ワークフローに使用される機械学習機械学習パイプライン。彼らの作品は、一連のデータは、結果が正または負であるかどうか、モデルをテストし、結果を達成するために評価できるモデルに変換し、リンクできるようにすることです。

機械学習(ML)パイプラインは、トレーニングモデルのいくつかのステップを含んでいます。各ステップが連続してモデルの精度とアルゴリズムの成功を向上させるために繰り返されるので、機械学習のパイプラインは、反復的です。ローカルオブジェクトストアのための道を開いたモデルと派生最大値、アクセス、スケーラブルかつ耐久性に優れたストレージソリューションの不可欠の学習をより良いマシンを構築するために。

今日では、データは、近代的な通貨となっています。今日の世界の現実的なビューを取得するために撮影し、大規模なデータセットから大きな価値とインテリジェンス(ビッグデータ)を抽出します。これは単にデータを格納しないことですが、また、その可能性と可能な値を利用するには、キャプチャ、保存、アクセスおよび変換データにする必要があります。

  1. 主な目的は、それを制御することで任意のMLモデルのための適切な管路を確立します。より柔軟なパイプの実装を組織。それは私たちの場合には、それは多くのコードを置き換えることで、あなたは欠陥部品をピックアップし、置き換えることができ、コンピュータの分解図のようなものです。
  2. 用語は、MLモデルを指し訓練プロセスによって作成されたモデルです。
  3. ターゲットへの属性マッピング入力データを見つけるためのアルゴリズムを学ぶトレーニングデータのパターンを(答えを予測する)、その後、これらのモデルMLモデルの出力をキャプチャします。
  4. このモデルは、多くの依存関係を持つことができ、すべてのコンポーネントがすべての機能を展開するためのオンラインとオフラインでの使用を使用することができ、すべての情報を中央リポジトリに格納されていることを確実にするために保存することができます。
  5. パイプラインコンポーネントのシリーズで構成され、これらのコンポーネントは、コンパイルを計算しています。これらのデータ要素を送信することにより、および計算の助けを借りて動作します。

これは、一方向の流れ導管ではありません。彼らは得点機械学習アルゴリズムを改善するために繰り返すことができ、自然に循環し、モデルのスケーラビリティされています。

今日のMLモデルの多くは、特定のタスクを実行することが可能なニューラルネットワークを「訓練された」または「何が起こった」(予測分析)「何が起こる可能性がある」への洞察をからを提供します。これらのモデルは、複雑でなく、決して完全ではなく、数学的計算を繰り返すことによって、または以前の結果に適用し、それが近いできるようにするたびに改善された「問題を解決します。」科学者たちは、パワートレインMLモデルを提供するために、データをキャプチャし、より多くのデータを得ることを期待します。

MLパイプライン関連の課題

典型的な機械学習のパイプラインは、次の手順が含まれます。

  • データ収集
  • データクレンジング
  • 特徴抽出(と次元削減によって示されます)
  • モデルの検証
  • 可視化

ここに画像を挿入説明

データ収集とクリーンアップでは、機械学習技術者のデータから任意の感覚を取得したい主なタスクです。しかし、特定のデータへのアクセスは、正しいデータ自体を得ることは困難な作業です。

データ品質とアクセシビリティは、パイプラインの建設の初期段階における二つの主要な課題が発生しますです。

データは、まとめると利益が収集し、コスト分析にわたって収集されなければならない捕獲されなければなりません。

このような理由から、私たちは、すべての組織がデータ湖を使用することをお勧めします。湖は、ユーザーが任意のスケール構造化データと非構造化データを格納することができ、集中型データリポジトリです。また、アドホック分析を可能にするために書くのではなく、読むためにパターンを採用しました。これにより、ユーザは、同じデータフレームの解析および処理を複数に適用することができます。

それぞれの状況は、しばしば監督のない状態で、データの量を交渉するための独自の機会を持っているのであまり訓練を使用することができるデータの量は、物事がコントロールから抜け出すことができるかどうか。

用例

機械学習モデルのライフサイクルは、より多くのモデルの調整やモニタリングを適合させる必要があります。新しいデータの頻繁な出現により、結果が著しく異なる場合があります。

現在のところ、それは彼らも、ファジーデータであり、トレーニングデータの欠如はまた、マークを実行できるように、既存のニューラルネットワークを改善することです。

シンプルなPythonのパイプライン

このコードセグメントショーオブジェクトや基本的なパイプを作成して実行するために必要な呼び出し:

ここに画像を挿入説明

共通Azureの機械学習オブジェクト、作業領域、データ格納領域、Compute_Targetおよび実験開始のフラグメント。次に、コードは、ホールドINPUT_DATAとoutput_dataにオブジェクトを作成します。ステップ配列は、一つの要素、PythonScriptStepが含まれ、それがCompute_Target上のデータオブジェクトと実行を使用します。次に、コードは、パイプラインオブジェクト自体、ワークスペースをインスタンス化し、手順アレイを渡します。Experiment.submitへのコール(パイプライン)は、AzureのMLパイプラインの実行が開始されます。パイプラインが完成する前に、WAIT_FOR_COMPLETION()の呼び出しはブロックされていたであろう。

プロジェクトが大規模または展開に近い前に、あなたのパイプは、よりきめ細かいと粗よりもする必要があります。あなたはMLプロジェクトは、様々な段階を含むと思われる場合、パイプラインは、特定のステージへとあなたを導くために完全なワークフローを提供し、あなたは右に行きます。

公開された414元の記事 ウォンの賞賛168 ビュー470 000 +

おすすめ

転載: blog.csdn.net/CoderPai/article/details/103570956