MLの開発と展開に信頼できるシステムエンジニアリング手法を提供します。NASA、オックスフォード、マイクロソフト、その他多くの機関がMLTRLフレームワークを提案しています。

MLTRLフレームワークには、優れた堅牢性と信頼性という利点があり、さまざまなチームや組織の人々の共同作業をサポートするための共通言語を定義しています。

arXivから選択、著者:Alexander Lavinなど、Almost Humanコンパイラ、編集者:Chen Ping

最新のツールを使用して機械学習システムを開発および展開するのは簡単ですが、このプロセスは通常急いでいます。一方で、デューデリジェンスの欠如は、技術的負債、範囲の広がり、ターゲットの不整合、モデルの誤用や失敗などのコストのかかる結果につながる可能性があります。一方、開発を簡素化し、高品質で信頼性の高い結果を得るために、エンジニアリングシステムは定義されたプロセスとテスト基準に従います。

最も極端なのは宇宙船システムです。開発プロセスでは、ミッションクリティカルな対策と堅牢性が深く根付いています。宇宙船エンジニアリングとMLの経験に基づいて、NASA、Microsoft Research、およびその他の機関の研究者は、機械学習の開発と展開のための実証済みのシステムエンジニアリング手法を開発しました。機械学習テクノロジー準備レベル(機械学習テクノロジー準備レベル、MLTRL)フレームワーク。従来のソフトウェアエンジニアリングとの主な違いを含め、MLワークフローを最適化しながら、システムの堅牢性、信頼性、説明責任を確保するための原則的なプロセスを定義します。

さらに重要なことに、MLTRLは、さまざまなチームや組織の人々が人工知能と機械学習テクノロジーで共同作業できるようにする共通言語定義しています。研究者はこのフレームワークを論文で説明し、例を挙げました。使用された例には、基礎研究、製品化、展開が含まれ、医療診断、消費者向けコンピュータービジョン、衛星画像、素粒子物理学などの複数の分野をカバーしています。

 

論文へのリンク:https//arxiv.org/pdf/2101.03989.pdf

MLTRLフレームワーク

MLTRLは、AIとMLの開発と展開をガイドおよび伝達するための技術的準備レベル(TRL)を定義します。TRLは、モデルまたはアルゴリズム、データパイプライン、ソフトウェアモジュール、またはそれらのコンポーネントの成熟度を表します。一般的なMLシステムは、相互接続された多くのサブシステムとコンポーネントで構成され、システムのTRLはそのコンポーネントの最低レベルです。レベルの分解は、ゲートレビュー、進化するワーキンググループ、リスク計算を含む要件ドキュメント、プログレッシブコードとテスト標準、およびTRLカード(図3)や倫理チェックリストなどで構成されます。マークする成果物。

MLTRLの階層を次の図に示します。

図1:MLTRLは、プロトタイピング、製品化、および展開を通じて調査を実施します。

ほとんどのMLワークフローは、データ処理、トレーニング、テスト、およびサービスモデルの分離された線形プロセスを指定します[6]。ただし、これらのワークフローは、ML開発プロセスでこの基本的なプロセスを繰り返して、より成熟して堅牢にする方法を定義していません。また、ソフトウェア、ハードウェア、データ、および人員を含む大規模なシステムと統合する方法も定義していません。さらに、MLTRLは展開後に停止していません。監視とフィードバックのループは、製品ライフサイクルの継続的な信頼性と改善にとって非常に重要です。

レベル0の第一原理:この段階は、主に文献レビュー、数学的基礎の構築、ホワイトボードの概念とアルゴリズム、およびデータの理解の構築を含む、新しいAI研究を目的としています。理論的なAIとMLの研究については、現在利用可能なデータはありません。

レベル1の目標指向の研究:基本原理から実用的なアプリケーションまで、研究者は特定のモデル/アルゴリズムの特性を分析するために低レベルの実験を設計および実行します。

レベル2の原理実証(PoP)開発:主にテストベンチの開発と運用を通じて、活発な研究開発を開始します。シミュレートされた環境、または実際のシーンの条件とデータに厳密に一致する代替データ。これらは、必ずしもアプリケーションや製品の目標ではなく、モデル固有の技術目標によって推進されることに注意してください。

レベル3システム開発:コード開発を相互運用性、信頼性、保守性、スケーラビリティ、およびスケーラビリティに向けて推進するためのチェックポイントがいくつかあります。コードはプロトタイプの口径になります。コードの堅牢性とクリーンさを研究する上での大きな一歩です。

レベル4の概念実証(PoC)開発:実際のシナリオでテクノロジーを実証することを目的としています。この段階は、アプリケーション主導の開発の種です。多くの組織にとって、これはR&Dグループ外の製品マネージャーや利害関係者との最初の連絡窓口であり、サービスレベルアグリーメント(SLA)とサービスレベル目標(SLO)の定義に役立ちます。 。

レベル5の機械学習能力:この段階では、テクノロジーは孤立したモデルまたはアルゴリズムであるだけでなく、移動ロボットのステレオビジョンセンサーに基づいて深度画像を生成するなどの特定の能力でもあります。多くの組織では、これはR&Dから商品化への技術的な移行または移行を表しています。MLTRLはこの移行を明確にし、必要な作業、ガイダンスドキュメント、目標とメトリック、およびチームを開発します。実際、次の図に示すように、MLTRLがないと、この段階が誤ってスキップされることがよくあります。

 

レベル6アプリケーション開発:ここでは、コードを製品レベルに到達させるための多くのソフトウェアエンジニアリングに焦点を当てています。このコードはユーザーにデプロイされるため、正確な仕様、広範なテストカバレッジ、明確に定義されたAPIなどに従う必要があります。 。生成されたMLモジュールは、1つ以上のターゲットユースケースに対して堅牢である必要があります。

レベル7の統合:テクノロジーを既存の本番システムに統合するために、研究では、作業チームがインフラストラクチャエンジニアとアプリケーションAIエンジニアのバランスを維持することを推奨しています-この段階での開発は、潜在的なモデルの仮定と障害モードの影響を受けやすいため、ソフトウェアエンジニアによって完全に開発されました。

レベル8フライト対応:この段階で、展開テスト、特にA / Bテスト、青緑色の展開テスト、シャドウテスト、カナリアテストなどの追加のテストを実行する必要があります。この段階では、絶えず変化するMLメソッドとデータが積極的かつ段階的にテストされます。

レベル9の展開: AIおよびMLテクノロジーの展開に関しては、現在のバージョンを監視し、次のバージョンの改善を明確に検討する必要があります。たとえば、パフォーマンスの低下が隠されている可能性がありますが、これは危険であり、機能の改善は通常、予期しない結果と制限をもたらします。したがって、このレベルでは、保守エンジニアリング(つまり、監視および更新方法)を使用する必要があります。

応用例

実際のアプリケーションシナリオでは、AIとMLは多くの課題とリスクに直面しており、MLTRLはこれらの課題とリスクを軽減することを目的としています。これらの問題が解決されない場合、医療過誤や偏った意思決定など、予期せぬ費用のかかる結果につながります。

人間が関与する神経病理学の仕事

非表示のフィードバックループ:実際のシステムでは、非表示のフィードバックループが一般的ですが、いくつかの問題があり、トレーニングデータに影響を与えます。時間の経過とともに、ユーザーの行動が特定のAIシステムに進化し、好みのデータ入力を選択する可能性があります。これにより、トレーニングに偏りが生じる可能性があります。データ。この場合、フルフィールドデジタルパソロジースライスの選択は手動検査では最も困難であり、個々のユーザーのバイアスによっても影響を受ける可能性があります。同様に、研究によると、根底にある医療プロセスが隠れた交絡因子になり、信頼性の低い意思決定支援ツールにつながる可能性があることがわかっています[18]。MLTRLは、ML固有のテスト(この場合、シャドウテストとモニタリングデータの不変条件)とTRLカードを要求することで役立ち、誰もが隠れたフィードバックループを見ることができます(下の図を参照)。

 

コンピュータビジョン

物理エンジンとグラフィックス処理の進歩により、AI環境とデータ生成機能の開発が促進され、シミュレーションと現実のギャップを越えたモデル変換に重点が置かれています。自動リサイクル用のコンピュータービジョンアプリケーションを開発するために、研究者は、知覚ベースのMLトレーニングと検証のための大規模なデータセットを生成するためのツールボックスであるUnityPerceptionを使用しました。Unity Perceptionを使用して、研究者は実際のデータソースを補足する合成画像を生成しました(図4)。このアプリケーションには、機械学習製品開発が直面する2つの主要な課題が含まれています。それは、混合データソースの処理と隠れたパフォーマンスの低下です。そして、MLTRLはこれらの問題の解決に役立ちます。

 

図4:自動リサイクルアプリケーション用のコンピュータービジョンパイプライン(a)。これには、複数のMLモデル、ユーザー入力、および複数のデータソースからの画像データが含まれます。

 

昨日14:23に投稿

おすすめ

転載: blog.csdn.net/weixin_42137700/article/details/113836479