翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Helm を使用して Amazon EKSクラスターにパッケージをインストールする
SageMaker HyperPod クラスターを作成して Amazon EKSクラスターにアタッチする前に、Kubernetes のパッケージマネージャーである Helm
SageMaker HyperPod サービスチームは、デバイス/EFAプラグイン、キュー、Kubeflow トレーニングオペレーター
重要
この helm インストールステップは必須ステップです。提供された Helm チャートを使用して Amazon EKSクラスターを設定しないと、 SageMaker HyperPod クラスターが正しく機能しなかったり、作成プロセスが完全に失敗したりする可能性があります。aws-hyperpod
名前空間名は変更できません。
-
ローカルマシンに Helm
をインストールします。 -
リポジトリ の SageMaker HyperPod
helm_chart/HyperPodHelmChart
にある が提供する Helm SageMaker HyperPod CLIチャートをダウンロードします。 git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
-
Helm チャートの依存関係を更新し、Kubernetes クラスターに加えられる変更をプレビューし、Helm チャートをインストールします。
helm dependencies update HyperPodHelmChart
helm install hyperpod-dependencies HyperPodHelmChart --dry-run
helm install hyperpod-dependencies HyperPodHelmChart
要約すると、Helm インストールは、ジョブのスケジュール設定とキューイング (キューイング)、ストレージ管理、MLflow統合、Kubeflow など、Amazon EKSクラスターのさまざまなコンポーネントを設定します。さらに、このグラフでは、必要なコンポーネントである SageMaker HyperPod クラスター障害耐性機能に統合するために、以下のコンポーネントをインストールします。
-
ヘルスモニタリングエージェント — これにより、 が提供するヘルスモニタリングエージェントがインストールされます SageMaker HyperPod。これは、 HyperPod クラスターをモニタリングする場合に必要です。ヘルスモニタリングエージェントは、次のように Docker イメージとして提供されます。Helm チャートで指定された values.yaml では、イメージはプリセットされています。エージェントは GPUベースのインスタンスと T rainium-accelerator-based インスタンス (
trn1
、trn1n
、) をサポートしますinf2
。aws-hyperpod
名前空間にインストールされます。590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
-
ディープヘルスチェック — SageMaker HyperPod ディープヘルスチェックサービスアカウント、、
ClusterRole
をaws-hyperpod
名前空間ClusterRoleBinding
に設定します。 -
Kubeflow MPI演算子 – Operator MPI
は、Kubernetes クラスターで Message Passing Interface () を使用して、分散Machine Learning (MLHPC) およびハイパフォーマンスコンピューティング (MPI) ワークロードの実行を簡素化する Kubernetes 演算子です。MPI Operator v0.5 がインストールされます。 mpi-operator
名前空間にインストールされます。 -
nvidia-device-plugin
– これは、Amazon EKSクラスター内のコンテナがNVIDIAGPUs使用できるように自動的に公開できる Kubernetes デバイスプラグインです。これにより、Kubernetes はそのコンテナにリクエストされた にアクセス権を割り当てて提供GPUsできます。でインスタンスタイプを使用する場合に必要ですGPU。 -
neuron-device-plugin
– これは、 を自動的に公開できる Kubernetes デバイスプラグインです。 AWS Amazon EKSクラスター内のコンテナが消費する Inferentia チップ。これにより、Kubernetes が にアクセスして利用できるようになります。 AWS クラスターノード上の Inferentia チップ。Neuron インスタンスタイプを使用する場合に必要です。 -
aws-efa-k8s-device-plugin
— これは、 の使用を可能にする Kubernetes デバイスプラグインです。 AWS Amazon EKSクラスターの Elastic Fabric Adapter (EFA)。EFA は、クラスター内のインスタンス間で低レイテンシーで高スループットの通信を提供するネットワークデバイスです。EFA サポートされているインスタンスタイプを使用する場合に必要です。
提供された Helm チャートを使用したインストール手順の詳細については、リポジトリ の README ファイル SageMaker HyperPod CLI