Amazon SageMaker HyperPod
SageMaker HyperPod を使用すると、機械学習 (ML) ワークロードを実行し、大規模言語モデル (LLM)、拡散モデル、基盤モデル (FM) などの最先端のモデルを開発するための回復力のあるクラスターをプロビジョニングできます。AWS Trainium や NVIDIA A100 および H100 Graphical Processing Units (GPU) のようなアクセラレーターを何千と利用した大規模なコンピューティングクラスターの構築と保守にかかる、差別化につながらない面倒な作業を排除することで、FM の開発を加速します。アクセラレーターで障害が発生すると、SageMaker HyperPod の回復機能によりクラスターインスタンスが自動的に検出されて置き換えられるため、ML ワークロードの実行に集中できます。
開始するには、「SageMaker HyperPod を使用するための前提条件」を確認して「SageMaker HyperPod 用 AWS Identity and Access Management」をセットアップし、SageMaker HyperPod によりサポートされている次のオーケストレーターオプションのいずれかを選択します。
SageMaker HyperPod での Slurm サポート
SageMaker HyperPod は、オープンソースのワークロードマネージャーである Slurm と統合することにより、回復力のあるクラスターで機械学習ワークロードを実行するためのサポートを提供します。SageMaker HyperPod での Slurm サポートにより、Slurm クラスター設定を通じたシームレスなクラスターオーケストレーションが可能になり、SageMaker HyperPod クラスターでヘッドノード、ログインノード、ワーカーノードをセットアップできます。この統合により、クラスターで ML ワークロードを実行するための Slurm ベースのジョブスケジューリングと、ジョブスケジューリングのためのクラスターノードへの直接アクセスも容易になります。HyperPod のライフサイクル設定のサポートにより、特定の要件を満たすようクラスターのコンピューティング環境をカスタマイズできます。さらに、Amazon SageMaker 分散トレーニングライブラリを活用することにより、AWS のコンピューティングリソースとネットワークリソースに対するクラスターのパフォーマンスを最適化できます。詳細については、「Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする」を参照してください。
SageMaker HyperPod での Amazon EKS サポート
SageMaker HyperPod は Amazon EKS とも統合されており、長時間実行され回復力のあるコンピューティングクラスターで基盤モデルの大規模なトレーニングを可能にします。これにより、クラスター管理者ユーザーは HyperPod クラスターをプロビジョニングして EKS コントロールプレーンにアタッチでき、動的キャパシティ管理、クラスターインスタンスへの直接アクセス、および回復機能が可能になります。データサイエンティストの場合、HyperPod での Amazon EKS サポートにより、トレーニング基盤モデル用のコンテナ化されたワークロードの実行、EKS クラスターの推論、Kubeflow PyTorch トレーニング用のジョブ自動再開機能の活用が可能になります。このアーキテクチャには、VPC 内の EKS クラスター (コントロールプレーン) と HyperPod クラスター (ワーカーノード) 間の 1 対 1 のマッピングが含まれ、大規模な ML ワークロードを実行するための緊密に統合されたソリューションが提供されます。詳細については、「Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションする」を参照してください。
SageMaker HyperPod によりサポートされる AWS リージョン
SageMaker HyperPod は、次の AWS リージョンで利用できます。
-
us-east-1
-
us-east-2
-
us-west-2
-
eu-central-1
-
eu-west-1
-
eu-north-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-northeast-1