翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon による SageMaker HyperPod クラスターのオーケストレーション EKS
SageMaker HyperPod は、長時間実行される回復力のあるコンピューティングクラスターで基盤モデルの大規模なトレーニングを可能にする SageMakerマネージドサービスで、Amazon と統合EKSして HyperPod コンピューティングリソースをオーケストレーションします。さまざまなハードウェア障害をチェックし、障害のあるノードを自動的に復旧する回復力機能を備えた Amazon EKSクラスター HyperPodを使用すると、数週間または数か月にわたる中断のないトレーニングジョブを大規模に実行できます。
クラスター管理者ユーザーの主な機能は次のとおりです。
-
回復力のある HyperPod クラスターのプロビジョニングとEKSコントロールプレーンへのアタッチ
-
ノードの追加、ソフトウェアの更新、クラスターの削除など、動的なキャパシティ管理を有効にする
-
kubectl
または SSM/ を介してクラスターインスタンスに直接アクセスできるようにするSSH -
基本的なヘルスチェック、ディープヘルスチェック、ヘルスモニタリングエージェント、 PyTorch ジョブの自動再開のサポートなど、障害耐性機能を提供します。
-
Amazon CloudWatch Container Insights 、Amazon Managed Service for Prometheus、Amazon Managed Grafana などのオブザーバビリティツールとの統合
データサイエンティストユーザーの場合、 で EKS をサポートすることで以下 HyperPod が有効になります。
-
HyperPod クラスターで基盤モデルをトレーニングするためのコンテナ化されたワークロードの実行
-
EKS と の統合を活用してクラスターで推論を実行する HyperPod EKS
EKS での Amazon サポートの高レベルアーキテクチャ HyperPod では、次の図に示すようにVPC、 内の EKSクラスター (コントロールプレーン) と HyperPod クラスター (ワーカーノード) を 1 対 1 でマッピングします。