

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションする
<a name="sagemaker-hyperpod-eks"></a>

SageMaker HyperPod は SageMaker AI マネージドサービスであり、長時間実行され、耐障害性に優れたコンピューティングクラスターにおける基盤モデルの大規模なトレーニングを可能にし、Amazon EKS と統合して HyperPod コンピューティングリソースをオーケストレーションします。HyperPod の回復性機能を備えた Amazon EKS クラスターを使用して、ハードウェアのさまざまな障害をチェックし、障害のあるノードを自動的に復旧することで、数週間から数か月にわたる中断のないトレーニングジョブを大規模に実行できます。

クラスター管理者ユーザーの主な機能は次のとおりです。
+ 回復力のある HyperPod クラスターをプロビジョニングし、EKS コントロールプレーンにアタッチする
+ ノードの追加、ソフトウェアの更新、クラスターの削除などの動的キャパシティ管理を有効にする
+ `kubectl` または SSM/SSH 経由でクラスターインスタンスに直接アクセスできるようにする
+ 基本的なヘルスチェック、ディープヘルスチェック、ヘルスモニタリングエージェント、PyTorch ジョブの自動再開のサポートなど、[回復性機能](sagemaker-hyperpod-eks-resiliency.md)を提供する
+ [Amazon CloudWatch Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html)、[Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html)、[Amazon Managed Grafana](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) などのオブザーバビリティツールと統合する

データサイエンティストユーザーの場合、HyperPod での EKS サポートにより以下が可能になります。
+ HyperPod クラスターで基盤モデルをトレーニングするためのコンテナ化されたワークロードを実行する
+ HyperPod と EKS の統合を活用して EKS クラスターで推論を実行する
+ [Kubeflow PyTorch トレーニング (PyTorchJob)](https://www.kubeflow.org/docs/components/training/user-guides/pytorch/) のジョブ自動再開機能を利用する

**注記**  
Amazon EKS は、Amazon EKS コントロールプレーンを介して SageMaker HyperPod 上のタスクとインフラストラクチャのユーザー管理オーケストレーションを可能にします。Kubernetes API Server エンドポイントを介したクラスターへのユーザーアクセスが最小権限の原則に従い、HyperPod クラスターからのネットワーク出力が保護されていることを確認します。  
Amazon EKS API Server へのアクセスの保護の詳細については、「[クラスター API サーバーエンドポイントへのネットワークアクセスを制御する](https://docs.aws.amazon.com/eks/latest/userguide/cluster-endpoint.html)」を参照してください。  
HyperPod でのネットワークアクセスの保護の詳細については、「[カスタム Amazon VPC で SageMaker HyperPod を設定する](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-optional-vpc)」を参照してください。

HyperPod での Amazon EKS サポートの高レベルアーキテクチャには、次の図に示すように、VPC 内の EKS クラスター (コントロールプレーン) と HyperPod クラスター (ワーカーノード) 間の 1 対 1 のマッピングが含まれています。

![\[EKS and HyperPod VPC architecture with control plane, クラスター nodes, and AWS のサービス.\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/hyperpod-eks-diagram.png)
