Amazon による SageMaker HyperPod クラスターのオーケストレーション EKS - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon による SageMaker HyperPod クラスターのオーケストレーション EKS

SageMaker HyperPod は、長時間実行される回復力のあるコンピューティングクラスターで基盤モデルの大規模なトレーニングを可能にする SageMakerマネージドサービスで、Amazon と統合EKSして HyperPod コンピューティングリソースをオーケストレーションします。さまざまなハードウェア障害をチェックし、障害のあるノードを自動的に復旧する回復力機能を備えた Amazon EKSクラスター HyperPodを使用すると、数週間または数か月にわたる中断のないトレーニングジョブを大規模に実行できます。

クラスター管理者ユーザーの主な機能は次のとおりです。

  • 回復力のある HyperPod クラスターのプロビジョニングとEKSコントロールプレーンへのアタッチ

  • ノードの追加、ソフトウェアの更新、クラスターの削除など、動的なキャパシティ管理を有効にする

  • kubectl または SSM/ を介してクラスターインスタンスに直接アクセスできるようにするSSH

  • 基本的なヘルスチェック、ディープヘルスチェック、ヘルスモニタリングエージェント、 PyTorch ジョブの自動再開のサポートなど、障害耐性機能を提供します。

  • Amazon CloudWatch Container Insights 、Amazon Managed Service for Prometheus、Amazon Managed Grafana などのオブザーバビリティツールとの統合

データサイエンティストユーザーの場合、 で EKS をサポートすることで以下 HyperPod が有効になります。

EKS での Amazon サポートの高レベルアーキテクチャ HyperPod では、次の図に示すようにVPC、 内の EKSクラスター (コントロールプレーン) と HyperPod クラスター (ワーカーノード) を 1 対 1 でマッピングします。

EKS and HyperPod VPC architecture with control plane, クラスター nodes, and AWS のサービス.