翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon でモデルをトレーニングする SageMaker
Amazon SageMaker Training は、 が提供するフルマネージド型の機械学習 (ML) サービス SageMaker で、さまざまな ML モデルを大規模に効率的にトレーニングできます。 SageMaker ジョブの中核は、ML ワークロードのコンテナ化と AWS コンピューティングリソースを管理する機能です。 SageMaker トレーニングプラットフォームは、ML トレーニングワークロードのインフラストラクチャのセットアップと管理に関連する面倒な作業を処理します。 SageMaker トレーニングを使用すると、モデルの開発、トレーニング、微調整に集中できます。このページでは、 でモデルのトレーニングを開始するための 3 つの推奨方法を紹介し SageMaker、その後に検討できる追加オプションを紹介します。
ヒント
生成 AI の基盤モデルのトレーニングについては、「Amazon SageMaker Studio で SageMaker JumpStart 基盤モデルを使用する」を参照してください。
Amazon SageMaker Training 内の機能の選択
内で ML モデルをトレーニングするには、主に 3 つのユースケースがあります SageMaker。このセクションでは、これらのユースケースと、各ユースケースで推奨される SageMaker 機能について説明します。
複雑な深層学習モデルをトレーニングする場合も、より小さな機械学習アルゴリズムを実装する場合も、 SageMaker トレーニングは、ユースケースの要件を満たす合理化された費用対効果の高いソリューションを提供します。
ユースケース
以下は、 内で ML モデルをトレーニングするための主なユースケースです SageMaker。
-
ユースケース 1: ローコード環境またはノーコード環境で機械学習モデルを開発する。
-
ユースケース 2: コードを使用して、より柔軟性と制御性に優れた機械学習モデルを開発します。
-
ユースケース 3: 最大限の柔軟性と制御性を備えた大規模な機械学習モデルを開発する。
推奨機能
次の表は、トレーニングを開始するための ML モデルのトレーニングの 3 つの一般的なシナリオと、対応するオプションを示しています SageMaker 。
ユースケース 1 | ユースケース 2 | ユースケース 3 | |
---|---|---|---|
SageMaker 機能 | Amazon SageMaker Canvas を使用してモデルを構築します。 | SageMaker Python SDK を使用して、XGBoost や によるタスク固有のモデル SageMaker JumpStartなどのSageMaker 組み込み ML アルゴリズムのいずれかを使用してモデルをトレーニングします。 | スクリプトモード |
説明 | data. SageMaker helps を使用して、ML モデルの構築とトレーニングインフラストラクチャとリソースの設定を管理します。 |
データを取得し、 が提供する組み込み ML アルゴリズムのいずれかを選択します SageMaker。 SageMaker Python SDK を使用して、モデルのハイパーパラメータ、出力メトリクス、および基本的なインフラストラクチャ設定を設定します。 SageMaker トレーニングプラットフォームは、トレーニングインフラストラクチャとリソースのプロビジョニングに役立ちます。 |
独自の ML コードを開発し、スクリプトまたは一連のスクリプトとして に持ち込みます SageMaker。詳細については、「ベストプラクティスを使用した分散コンピューティング SageMaker 」を参照してください。さらに、独自の Docker コンテナ を取り込むことができます。 SageMaker トレーニングプラットフォームは、カスタム設定に基づいてトレーニングインフラストラクチャとリソースを大規模にプロビジョニングするのに役立ちます。 |
に最適化 |
トレーニングデータセットによる迅速な実験による、ローコード/ノーコード、UI 駆動型モデル開発。カスタムモデルを構築すると、データに基づいてアルゴリズムが自動的に選択されます。アルゴリズムの選択などの高度なカスタマイズオプションについては、「高度なモデル構築設定」を参照してください。 |
ハイパーパラメータ、インフラストラクチャ設定、ML フレームワークとエントリポイントスクリプトを直接使用して柔軟性を高める機能について、高レベルのカスタマイズで ML モデルをトレーニングします。Amazon Python SDK を通じて組み込みアルゴリズム、事前トレーニング済みモデル、 JumpStart モデルを使用して ML モデルを開発します。 SageMaker |
ML トレーニングワークロードを大規模に実行するには、複数のインスタンスと最大限の柔軟性が必要です。 SageMaker ベストプラクティス「」の「分散コンピューティング」を参照してください。すべてのモデルのトレーニングと提供をホストするために Docker イメージ SageMaker を使用します。任意の SageMaker または外部アルゴリズムを使用し、Docker コンテナを使用してモデル を構築できます。 |
考慮事項 |
Amazon SageMaker Canvas が提供するモデルをカスタマイズするための最小限の柔軟性。 |
SageMaker Python SDK は、低レベルの SageMaker トレーニング API と比較して、シンプルなインターフェイスと少ない設定オプションを提供します。 |
AWS インフラストラクチャと分散トレーニングオプションに関する知識が必要です。「トレーニングツールキットを使用して独自のトレーニングコンテナを作成するSageMaker 」も参照してください。 |
推奨環境 | Amazon SageMaker Canvas を使用します。設定方法については、 SageMaker 「Canvas の使用開始」を参照してください。 | Amazon Studio SageMaker JupyterLab内で を使用します。 SageMaker 設定方法については、「Amazon SageMaker Studio の起動」を参照してください。 | Amazon Studio SageMaker JupyterLab内で を使用します。 SageMaker 設定方法については、「Amazon SageMaker Studio の起動」を参照してください。 |
追加のオプション
SageMaker では、ML モデルをトレーニングするための以下の追加オプションを提供しています。
SageMaker トレーニング機能を提供する の機能
-
SageMaker JumpStart: SageMaker 公開されている最新の独自基盤モデル (FMsを含むパブリックモデルハブへのアクセス SageMaker JumpStart を提供します。これらのモデルを Amazon SageMaker Studio 内で微調整、評価、デプロイできます。 は、生成 AI ユースケースの基盤モデルを活用するプロセスを SageMaker JumpStart 合理化し、ガバナンスガードレールを適用し、組織が承認されたモデルにのみアクセスできるようにしながら、基盤モデルを使用するプライベートモデルハブを作成できます。の使用を開始するには SageMaker JumpStart、SageMaker JumpStart 「 Foundation Models」を参照してください。
-
SageMaker HyperPod: SageMaker HyperPod は、大規模な機械学習 (ML) ワークロードや state-of-the-art 基盤モデル (FMs。 AWS Trainium や NVIDIA A100 や H100 グラフィカルプロセッシングユニット (GPUs。 H100 で Slurm などのワークロードマネージャーソフトウェアを使用できます HyperPod。
SageMaker トレーニングのその他の機能
-
ハイパーパラメータチューニング: SageMaker この機能は、モデルのハイパーパラメータのセットを定義し、データセットで多くのトレーニングジョブを起動するのに役立ちます。ハイパーパラメータ値によっては、モデルトレーニングのパフォーマンスが異なる場合があります。この機能は、検索対象として設定した特定のハイパーパラメータの範囲内で最もパフォーマンスの高いハイパーパラメータのセットを提供します。
-
分散トレーニング: 、NVIDIA CUDA PyTorch、およびその他の PyTorchベースのフレームワークで構築された FMs を事前トレーニングまたは微調整します。GPU インスタンスを効率的に活用するには、集合的な通信オペレーションと、インフラストラクチャに AWS 最適化されたエキスパート並列処理や共有データ並列処理などのさまざまなモデル並列処理技術を提供する SageMaker 分散トレーニングライブラリを使用します。
-
オブザーバビリティ機能 : Training のプロファイリングおよびデバッグ機能 SageMaker を使用して、モデルトレーニングワークロード、モデルパフォーマンス、リソース使用率に関するインサイトを取得します。詳細については、「モデルのパフォーマンスのデバッグと改善」および「プロファイリング」を参照して、計算パフォーマンスを最適化してください。
-
コスト削減と効率的なインスタンスオプション: インスタンスプロビジョニングのトレーニングのコンピューティングコストと効率を最適化するには、異種クラスター、マネージドスポットインスタンス、またはマネージドウォームプール を使用します。