Amazon SageMaker 機械学習の旅を後押しするもの

承認ステートメント: この記事は、Amazon クラウド テクノロジー開発者コミュニティ、Zhihu、セルフメディア プラットフォーム、サードパーティ開発者メディアなどの Amazon クラウド テクノロジー公式チャネルを含むがこれらに限定されない、Amazon クラウド テクノロジーの公式記事の権利を転送および書き換えることを承認します。 。

I.はじめに

        今日のデジタル時代において、人工知能と機械学習は社会進歩の重要な原動力となっています。 Amazon Cloud Technology は、2023 re:Invent グローバルカンファレンスで 5 つの新しい Amazon SageMaker 機能のリリースを発表しました。

  • Amazon SageMaker HyperPod は、大規模な分散トレーニング用の専用インフラストラクチャを提供することで、基本モデルのトレーニング時間を最大 40% 削減します。

  • Amazon SageMaker Inference は、アクセラレータの使用を最適化することで基本モデルのデプロイメントコストを平均 50% 削減し、レイテンシーを平均 20% 短縮します。

  • Amazon SageMaker Clarify を使用すると、顧客は責任ある AI をサポートするパラメータに基づいて基盤となるモデルを迅速に評価して選択することが容易になります。

  • Amazon SageMaker Canvas 機能を使用すると、顧客は自然言語の指示を通じてデータの準備を加速し、数回クリックするだけでベースモデルを使用してモデルをカスタマイズできます。

  • BMW、Booking.com、Hugging Face、Perplexity、Salesforce、Stability AI、Vanguard はすでに新しい Amazon SageMaker 機能を使用しています

お客様が大規模な言語モデルやその他の基本モデルの構築、トレーニング、導入を加速できるように設計されたこれらの新機能はユーザーの持ち運びに役立ちます。モデル開発とアプリケーション展開を行い、より強力なツールとリソースを提供します。 この記事では、Amazon SageMaker を実際に体験して、どのように実現できるかを明らかにします。 help 機械学習への旅。

2. Amazon SageMaker の概要

従来の方法で機械学習モデルを作成するには、開発者はデータ準備プロセスから開始し、視覚化を経て、アルゴリズムを選択し、フレームワークをセットアップし、モデルをトレーニングし、数百万の可能なパラメーターを調整し、モデルをデプロイしてパフォーマンスを監視する必要があります。このプロセスでは、多くの場合、複数回繰り返す必要があり、非常に退屈で非常に時間がかかります。

、機械学習モデルを作成するための一般的なワークフローです。

その後Amazon SageMaker は、データの準備からモデルのトレーニングに至るまで、ワン​​ストップの機械学習開発環境を提供するフルマネージド サービスです。モデルのデプロイメントはすべてクラウドで完了できます。これは非常に便利で高速であり、パフォーマンスが大幅に向上します次に、Amazon SageMaker によって提供されるいくつかの機械学習開発環境を示します。

  • Amazon SageMaker Studio: 機械学習モデルを構築、トレーニング、デバッグ、展開、監視できます。
  • Amazon SageMaker Notebook インスタンス: データの準備と処理に加え、Jupyter Notebook アプリケーションを実行するコンピューティング インスタンスから機械学習モデルのトレーニングとデプロイを行うことができます。
  • Amazon SageMaker Studio Lab: Studio Lab は、AWS アカウントなしでオープンソースベースの環境で AWS コンピューティング リソース JupyterLab にアクセスできる無料のサービスです。
  • Amazon SageMaker Canvas: 機械学習を使用して、コードを記述せずに予測を生成できます。
  • Amazon SageMaker Geospatial: 地理空間モデルを構築、トレーニング、デプロイできます。
  • Amazon rStud ioSageMaker: rStudio は、コードの直接実行をサポートするコントロールを備えた R 用の IDE です。デスク、構文強調表示エディター、描画、履歴、デバッグ、ワークスペース管理のためのツール。

対象ハードウェアソフトウェア、インフラストラクチャの問題に対処したくない< a i =4>、機械学習モデルの開発プロセスを簡素化したいアルゴリズム、モデル、リソースを柔軟に選択して、さまざまなニーズに対応 ビジネス ニーズには、安心して Amazon SageMaker を選択できます!

3. 本番環境における Amazon SageMaker のアプリケーションの利点

機械学習の適用プロセスでは、モデルを実稼働環境にデプロイすることが重要なタスクです。実稼働環境では、モデルの高いパフォーマンスだけでなく、モデルの高い可用性とスケーラビリティも必要です。この記事では、本番環境で Amazon SageMaker を使用する利点と課題について詳しく説明します。

  1. 高性能: Amazon SageMaker は、Amazon Cloud Technology のコンピューティング リソースを使用して、ユーザーに高性能の機械学習モデルのトレーニングとデプロイを提供できます。 TensorFlow、PyTorch などのさまざまな深層学習フレームワークをサポートし、さまざまな種類のアプリケーションのニーズに対応します。
  2. 高可用性: Amazon SageMaker は、複数のアベイラビリティーゾーンにわたってクラスターとデータストアを自動的にスケーリングすることで、モデルの高可用性を確保します。これは、トラフィックのピーク時やサーバー障害時でもモデルが安定していることを意味します。
  3. 自動化: Amazon SageMaker は、トレーニングされたモデルを本番環境対応バージョンに自動的に変換し、クラウドまたはエッジデバイスにデプロイできる自動モデルデプロイメントツールを提供します。これにより、モデルの展開の複雑さと人的エラーの発生率が大幅に軽減されます。
  4. セキュリティ: Amazon SageMaker は、データ暗号化、アクセス制御、セキュリティ監査機能を含む完全なセキュリティ制御を提供し、ユーザーデータとモデルのセキュリティを保護します。

4. Amazon SageMaker が企業のあらゆる役割を機械学習機能で強化する方法

        コンピューター分野の多くの開発者にとって、Amazon SageMaker を使用して機械学習を構築することはよく知られていると思います。コンピューター分野以外のバックグラウンドを持つ人でも、Amazon SageMaker の強力な機能を使用して機械学習とアプリケーションを実行できます。日常のビジネス シナリオでは、答えは「はい」です。 Amazon SageMaker Canvas を使用すると、コードを書かずに機械学習を使用して予測を生成できます。次に、 を使用して、公開されている糖尿病患者のデータ セット (履歴データを含む) を使用します。このデータ セットには、患者と病院の転帰に関連する 15 を超える特徴が含まれており、合計 16,000 行のデータがあります。 Amazon SageMaker Canvasゼロコードで、高リスクの糖尿病患者が 30 日以内に入院する可能性があるか、30 日後に入院する可能性が高いか、まったく入院しない可能性があるかを予測するモデルを構築します。次に、操作方法と使用方法について説明します。

1. Amazon SageMaker コンソールでキャンバスを選択し、[キャンバス] をクリックします

2. Amazon SageMaker Canvas インターフェイスに入ると、次のようなガイダンス プロンプトが表示されます。データセット管理、モデリング、予測

3. [新しいモデル] を選択し、新しいモデルを作成します。

4. データ セットをインポートしてプレビューします。データ セットには患者と病院の結果に関連する 15 の特性フィールドが含まれています。

5. システムは、標準モードと高速モードの 2 つの構築モードを提供します。クイックモデル構築モード。モデル構築速度は速くなりますが、精度は低くなります。逆に、標準モードではモデルの構築に時間がかかり、精度が高くなります。

6. ターゲット フィールド再許可 (再入院) フィールドを予測フィールドとして選択します。

以下のプレビューで各特徴値、欠損値の有無、および目標値との相関を確認し、必要に応じて特徴値または特徴の組み合わせをフィルターできます。特徴量の分布を見ることで、特徴量に偏りや不均衡の問題があるかどうかを確認できます。 Amazon Canvas は、データ内の欠損値を自動的に特定し、隣接する値で埋めることができます。ビジネス ロジックと目標値との相関関係を組み合わせることで、最初に機能の組み合わせを選択できます。

7. 同時に、クイック モードモデルのプレビュー 動的なインタラクションの最適化を実現するための機能の影響

num-lab-precedures (臨床検査の数)、num-Medication を確認できます。 (薬剤の数) は予測結果に比較的大きな影響を与えます。患者の性別などのフィールドはあまり関連性がありません。影響の少ないフィールドは、後続のモデル トレーニングで削除できます。

8. 機能の組み合わせを選択したら、モデルの構築を開始できます

SageMaker Canvas は、データ クリーニングを自動的に完了し、最大 250 のモデルを構築し、最適なモデルを選択できます。モデルをトレーニングするには、クイック ビルドまたは標準ビルドを選択できます: クイック ビルドには通常 2 ~ 15 分しかかかりませんが、標準ビルドには 2 ~ 4 時間かかりますが、精度が高く、ワンクリックで SageMaker Studio と共有できます。実際にトレーニングされたモデルの精度は、理論的には以前に予測したものよりも高くなっています。

9. モデル構築の結果。概要ページで、予測精度が 56 .716% の場合、各フィーチャの影響値も確認できます。スコア ページでは、予測精度とエラーの具体的な数を確認できます。

10. モデルを使用して予測を行う

モデルの構築後そのモデルを使用して個々のデータを予測できます

このことから、このモデル予測を使用して、どの指標が 30 日以内に高リスクの糖尿病患者に影響を与える可能性があるかを明確に確認できます。 30 日 数日経っても入院しなかったり、まったく入院しなかったりする影響は比較的大きく、入院を避けるために患者が事前にどのような健康問題に注意を払う必要があるかについて肯定的なフィードバックを提供します。再び病院です。これは、 医療健康のためです。この分野では、研究に関する大きな支援があります。

11. 啓蒙

以上が Amazon SageMaker Canvas の全体的な操作プロセスですが、使用中に印象に残った点がいくつかあります。

1. データのプレビュー

データのインポート構築後、データ アナリストは、データの一般的な品質、さまざまな特性のデータ タイプ、欠損値の有無、平均値、最頻値、その他の情報をすぐに理解できます。 , データ品質の問題に起因するその後の問題が大幅に減少します。

2. 施工後の簡易特徴相関分析

通常、機能の選択はビジネス経験に基づいて行われますが、このシステムは、この点に関する機能の影響分析を迅速に行うこともできるため、アナリストが不要な機能を選別し、モデルの構築を迅速化するのに役立ちます。

3. 一般ユーザー自身も利用可能

一般的に、データ分析を使用する必要がある顧客がモデルの作成、分析、予測のプロセス全体を自分で検討することは非常に役立ちますが、ビジネス分析における機械学習の役割を実際に体験することは依然として非常に役立ちます。機械学習が企業のあらゆる部門に効果的に力を与え、企業のあらゆる役割が機械学習の能力を活用できるようにしましょう。

5。結論

        もちろん、Amazon SageMaker を使用する場合、Data Wrangler を使用してユーザー行動データを前処理およびクリーンアップすることもできます。モデルのトレーニングには Studio を使用し、AutoML 関数の自動化部分を使用します。モデル最適化プロセス;最後に、トレーニングされたモデルが本番環境にデプロイされ、Amazon SageMaker の監視機能モニターが使用されました。リアルタイムでモデルを管理します。

        全体として、Amazon SageMaker は強力で包括的な機械学習サービスです。データの準備からモデルの展開までのワンストップ ソリューションをユーザーに提供し、機械学習プロセスを大幅に簡素化します。初心者でも経験豊富な開発者でも、Amazon SageMaker を使用すると、機械学習の世界にすばやく簡単に参入できます。


 

おすすめ

転載: blog.csdn.net/m0_61243965/article/details/134991424