翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon SageMaker HyperPod
SageMaker HyperPod は、機械学習 (ML) ワークロードを実行し、大規模な言語モデル ()、拡散モデル、基盤モデル (LLMs) などのモデルを開発 state-of-the-artするための回復力のあるクラスターをプロビジョニングするのに役立ちますFMs。 AWS Trainium や NVIDIA A100、H100 Graphical Processing Units () などの数千のアクセラレーターを搭載した大規模なコンピューティングクラスターの構築と維持に伴う、差別化されていない重リフトを排除FMsすることで、 の開発を加速しますGPUs。 H100 アクセラレーターが失敗すると、 SageMaker HyperPod の障害耐性機能がクラスターインスタンスを自動的に検出して置き換えるため、ML ワークロードの実行に集中できます。
開始するには、 を確認し SageMaker HyperPod を使用するための前提条件、 をセットアップしAWS Identity and Access Management の SageMaker HyperPod、 でサポートされている次のオーケストレーターオプションのいずれかを選択します SageMaker HyperPod。
での Slurm サポート SageMaker HyperPod
SageMaker HyperPod は、オープンソースのワークロードマネージャーである Slurm と統合することで、回復力のあるクラスターで機械学習ワークロードを実行するためのサポートを提供します。の SageMaker HyperPod Slurm のサポートにより、Slurm クラスター設定によるシームレスなクラスターオーケストレーションが可能になり、 SageMaker HyperPod クラスターのヘッドノード、ログインノード、ワーカーノードをセットアップできます。この統合により、クラスターで ML ワークロードを実行するための Slurm ベースのジョブスケジューリングが容易になり、ジョブスケジューリングのためのクラスターノードへの直接アクセスも容易になります。 HyperPodのライフサイクル設定のサポートにより、特定の要件を満たすようにクラスターのコンピューティング環境をカスタマイズできます。さらに、Amazon SageMaker 分散トレーニングライブラリを活用することで、 AWS コンピューティングリソースとネットワークリソースに対するクラスターのパフォーマンスを最適化できます。詳細については、「Slurm を使用した SageMaker HyperPod クラスターのオーケストレーション」を参照してください。
での Amazon EKS サポート SageMaker HyperPod
SageMaker HyperPod また、 は Amazon と統合EKSされ、長時間実行され回復力のあるコンピューティングクラスターで基盤モデルの大規模なトレーニングを可能にします。これにより、クラスター管理者ユーザーは HyperPod クラスターをプロビジョニングしてEKSコントロールプレーンにアタッチできるため、動的なキャパシティ管理、クラスターインスタンスへの直接アクセス、および障害耐性機能が可能になります。データサイエンティストの場合、 での Amazon EKS サポート HyperPod により、トレーニング基盤モデル用のコンテナ化されたワークロードの実行、EKSクラスターの推論、Kubeflow PyTorch トレーニング用のジョブ自動再開機能の利用が可能になります。このアーキテクチャには、EKSクラスター (コントロールプレーン) と HyperPod内のクラスター (ワーカーノード) 間の 1 対 1 のマッピングが含まれておりVPC、大規模な ML ワークロードを実行するための緊密に統合されたソリューションを提供します。詳細については、「Amazon による SageMaker HyperPod クラスターのオーケストレーション EKS」を参照してください。
AWS リージョン でサポートされる SageMaker HyperPod
SageMaker HyperPod は、次の で使用できます AWS リージョン。
-
us-east-1
-
us-east-2
-
us-west-2
-
eu-central-1
-
eu-west-1
-
eu-north-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-northeast-1