翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker HyperPod を使用するための前提条件
以下のセクションでは、SageMaker HyperPod の使用を開始する前に前提条件について説明します。
トピック
SageMaker HyperPod クォータ
AWS アカウントのクラスター使用量のクォータを考慮して、SageMaker HyperPod クラスターを作成できます。
重要
SageMaker HyperPod の料金の詳細については、SageMaker HyperPod の料金「」およびAmazon SageMaker AI の料金
を使用して Amazon SageMaker HyperPod クォータを表示する AWS Management Console
SageMaker HyperPod に使用されるクラスター使用状況のクォータ (制限とも呼ばれます) のデフォルト値と適用される値を検索します。
-
Service Quotas コンソール
を開きます。 -
左側のナビゲーションペインで [AWS services] ( のサービス) を選択します。
-
AWS サービスリストから Amazon Amazon SageMakerを検索して選択します。
-
Service Quotas リストでは、Service Quotas 名、適用された値 (使用可能な場合)、 AWS デフォルトのクォータ、およびクォータ値が調整可能かどうかを確認できます。
-
検索バーに、「クラスター使用状況」と入力します。クラスター使用状況のクォータ、適用されるクォータ、およびデフォルトのクォータが表示されます。
を使用して Amazon SageMaker HyperPod クォータの引き上げをリクエストする AWS Management Console
アカウントまたはリソースレベルでクォータを引き上げます。
-
クラスター使用状況のインスタンスのクォータを引き上げるには、引き上げ対象のクォータを選択します。
-
クォータが調整可能な場合、[調整可能性] 列にリストされている値に基づいて、アカウントレベルまたはリソースレベルでクォータの引き上げをリクエストできます。
-
[クォータ値を引き上げる] に、新しい値を入力します。新しい値は現在値よりも大きい値である必要があります。
-
[リクエスト] を選択します。
-
保留中または最近解決されたリクエストをコンソールに表示するには、サービスの詳細ページから [リクエスト履歴] タブに移動するか、ナビゲーションペインから [ダッシュボード] を選択します。保留中のリクエストの場合は、リクエストのステータスを選択してリクエストの受信をオープンします。リクエストの初期ステータスは [Pending] (保留中) です。ステータスがリクエストされたクォータに変わると、ケース番号が表示されます AWS サポート。リクエストのチケットを開くには、ケース番号を選択します。
クォータの引き上げをリクエストする方法の全般的な詳細については、「AWS Service Quotas ユーザーガイド」の「Requesting a Quota Increase」を参照してください。
カスタム Amazon VPC を使用した SageMaker HyperPod のセットアップ
カスタム Amazon VPC で SageMaker HyperPod クラスターを設定するには、次の前提条件を確認してください。
注記
Amazon EKS オーケストレーションには VPC 設定が必須です。Slurm オーケストレーションの場合、VPC のセットアップはオプションです。
-
カスタム VPC で SageMaker HyperPod クラスターを作成する AWS アカウント 前に、 で Elastic Network Interface (ENI) 容量を検証します。ENI の制限は Amazon EC2 によって制御され、によって異なります AWS リージョン。SageMaker HyperPod はクォータの引き上げを自動的にリクエストできません。
現在の ENI クォータを確認するには:
-
Service Quotas コンソール
を開きます。 -
「クォータの管理」セクションで、 AWS サービスドロップダウンリストを使用して VPC を検索します。
-
Amazon Amazon Virtual Private Cloud VPC) のクォータを表示するには、 を選択します。
-
リージョンごとのサービスクォータネットワークインターフェイスまたはクォータコード を探します
L-DF5E4CA3
。
現在の ENI 制限が SageMaker HyperPod クラスターのニーズに不十分な場合は、クォータの引き上げをリクエストしてください。事前に十分な ENI 容量を確保しておくと、クラスターのデプロイの失敗を防ぐことができます。
-
-
カスタム VPC を使用して SageMaker HyperPod クラスター AWS を リソースに接続する場合は、クラスターの作成時に VPC 名、ID AWS リージョン、サブネット IDs、セキュリティグループ IDsを指定します。
注記
Amazon VPC とサブネットがクラスター
VPCConfig
の または のOverrideVPCConfig
属性を使用してインスタンスグループレベルで IPv6 をサポートしている場合ClusterInstanceGroupSpecification
、ネットワーク通信はクラスターオーケストレーションプラットフォームによって異なります。-
Slurm オーケストレーションされたクラスターは、デュアル IPv6 アドレスと IPv4 アドレスを使用してノードを自動的に設定し、IPv6 ネットワーク通信をすぐに実行できるようにします。
VPCConfig
IPv6 設定以外に追加の設定は必要ありません。 -
EKS オーケストレーションされたクラスターでは、ノードはデュアルスタックのアドレス指定を受け取りますが、ポッドは Amazon EKS クラスターが明示的に IPv6 IPv6-enabledを使用できます。新しい IPv6 Amazon EKS クラスターを作成する必要があります。既存の IPv4 Amazon EKS クラスターを IPv6 に変換することはできません。IPv6 Amazon EKS クラスターのデプロイについては、Amazon EKS IPv6 クラスターのデプロイ」を参照してください。
IPv6 設定の追加リソース:
-
VPC に IPv6 サポートを追加する方法については、「VPC の IPv6 サポート」を参照してください。
-
新しい IPv6-compatible」を参照してください。 Amazon VPC
-
カスタム Amazon VPC で SageMaker HyperPod を設定するには、SageMaker HyperPod のカスタム Amazon VPC セットアップ」を参照してください。
-
-
すべてのリソースが SageMaker HyperPod クラスター AWS リージョン と同じ にデプロイされていることを確認します。VPC 内のリソース間通信を許可するようにセキュリティグループルールを設定します。例えば、 で VPC を作成する場合
us-west-2
、1 つ以上のアベイラビリティーゾーン (us-west-2a
や などus-west-2b
) にサブネットをプロビジョニングし、グループ内トラフィックを許可するセキュリティグループを作成します。注記
SageMaker HyperPod は、マルチアベイラビリティーゾーンのデプロイをサポートしています。詳細については、「複数の AZs にまたがる SageMaker HyperPod クラスターの設定」を参照してください。
-
VPC エンドポイントを作成して、VPC にデプロイされた SageMaker HyperPod インスタンスグループの Amazon Simple Storage Service (Amazon S3) 接続を確立します。インターネットアクセスがないと、インスタンスグループはライフサイクルスクリプト、トレーニングデータ、モデルアーティファクトを保存または取得できません。Amazon S3 バケットのプライベート VPC へのアクセスを制限するカスタム IAM ポリシーを作成することをお勧めします。詳細については、「AWS PrivateLink ユーザーガイド」の「Amazon S3 におけるエンドポイント」を参照してください。
-
Elastic Fabric Adapter (EFA) 対応インスタンスを使用する HyperPod クラスターの場合、セキュリティグループ自体との間で送受信されるすべてのトラフィックを許可するようにセキュリティグループを設定します。具体的には、アウトバウンドルール
0.0.0.0/0
に を使用しないでください。これにより、EFA ヘルスチェックが失敗する可能性があります。EFA セキュリティグループ準備ガイドラインの詳細については、Amazon EC2 ユーザーガイド」の「ステップ 1: EFA 対応セキュリティグループを準備する」を参照してください。
複数の AZs にまたがる SageMaker HyperPod クラスターの設定
複数のアベイラビリティーゾーン (AZs) にまたがる SageMaker HyperPod クラスターを設定して、信頼性と可用性を向上させることができます。
注記
Elastic Fabric Adapter (EFA) トラフィックは AZs または VPCs経由できません。これはEFA インターフェイスの ENA デバイスからの通常の IP トラフィックには適用されません。詳細については、「EFA の制限」を参照してください。
-
デフォルトの動作
HyperPod は、すべてのクラスターインスタンスを単一のアベイラビリティーゾーンにデプロイします。VPC 設定によって、デプロイ AZ が決まります。
-
Slurm オーケストレーションされたクラスターの場合、VPC 設定はオプションです。VPC 設定が指定されていない場合、HyperPod はデフォルトでプラットフォーム VPC から 1 つのサブネットに設定されます。
-
EKS オーケストレーションされたクラスターの場合、VPC 設定が必要です。
-
Slurm オーケストレーターと EKS オーケストレーターの両方で、 が指定されている場合、HyperPod
VpcConfig
は指定されたVpcConfig
のサブネットリストからサブネットを選択します。すべてのインスタンスグループは、サブネットの AZ を継承します。
注記
クラスターを作成すると、その
VpcConfig
設定を変更することはできません。HyperPod クラスターVPCs の設定の詳細については、前のセクション「」を参照してくださいカスタム Amazon VPC を使用した SageMaker HyperPod のセットアップ。
-
-
マルチ AZ 設定
クラスターを作成するとき、または既存のクラスターに新しいインスタンスグループを追加するときに、複数の AZs にまたがって HyperPod クラスターを設定できます。マルチ AZ 配置を設定するには、クラスター内の個々のインスタンスグループに、異なるアベイラビリティーゾーン間で異なるサブネットとセキュリティグループを指定することで、クラスターのデフォルトの VPC 設定を上書きできます。
SageMaker HyperPod API ユーザーは、
CreateCluster
またはUpdateCluster
APIs を操作するときに ClusterInstanceGroupSpecification 内のOverrideVpcConfig
プロパティを使用できます。OverrideVpcConfig
フィールド:-
インスタンスグループの作成後に変更することはできません。
-
オプションです。指定しない場合、クラスターレベル
VpcConfig
がデフォルトとして使用されます。 -
Slurm オーケストレーションされたクラスターの場合、 はクラスターレベル
VpcConfig
が指定されている場合にのみ指定できます。クラスターレベルでVpcConfig
が指定されていない場合、OverrideVpcConfig
はどのインスタンスグループにも使用できません。 -
次の 2 つの必須フィールドが含まれます。
-
Subnets
- 1~16 個のサブネット IDs -
SecurityGroupIds
- 1~5 個のセキュリティグループ IDs
-
SageMaker HyperPod コンソール UI または を使用して SageMaker HyperPod クラスターを作成または更新する方法の詳細については、以下を参照してください AWS CLI。
-
Slurm オーケストレーション:「Slurm オーケストレーションされた HyperPod クラスターの操作」を参照してください。
-
EKS オーケストレーション。「EKS でオーケストレーションされた HyperPod クラスターの運用」を参照してください。
-
注記
複数の AZs でワークロードを実行する場合、AZs 間のネットワーク通信はレイテンシーの増加につながることに注意してください。レイテンシーの影響を受けやすいアプリケーションを設計する場合は、この影響を考慮してください。
クラスターユーザーアクセスコントロールのセットアップ AWS Systems Manager と Run As
SageMaker HyperPod DLAMI には、SageMaker HyperPod クラスターインスタンスグループへのアクセスを管理するのに役立つ AWS Systems Manager
注記
HyperPod クラスターノードへのアクセス権をユーザーに付与すると、ユーザーはノードにユーザー管理ソフトウェアをインストールして操作できます。ユーザーの最小特権のアクセス許可の原則を維持してください。
AWS アカウントで Run As を有効にする
AWS アカウント管理者またはクラウド管理者は、SSM の Run As 機能を使用して、IAM ロールまたはユーザーレベルで SageMaker HyperPod クラスターへのアクセスを管理できます。 https://docs.aws.amazon.com/systems-manager/latest/userguide/session-preferences-run-as.htmlこの機能を使用すると、IAM ロールまたはユーザーに関連付けられた OS ユーザーを使用して、各 SSM セッションを開始できます。
AWS アカウントで Run As を有効にするには、「Linux および macOS マネージドノードの Run As サポートを有効にする」の手順に従います。クラスターで OS ユーザーを既に作成している場合、「Linux と macOS のマネージドノードで Run As サポートを有効にする」のステップ 5 のオプション 2 で説明されているようにタグ付けすることにより、それらを IAM ロールまたはユーザーに関連付けてください。
(オプション) Amazon FSx for Lustre で SageMaker HyperPod を設定する
SageMaker HyperPod の使用を開始し、クラスターと FSx for Lustre ファイルシステム間のデータパスのマッピングを開始するには、SageMaker HyperPod で AWS リージョン サポートされている のいずれかを選択します。 AWS リージョン 任意の を選択したら、使用するアベイラビリティーゾーン (AZ) も決定する必要があります。
同じ 内で FSx for Lustre ファイルシステムがセットアップされている AZs とは異なる AZs で SageMaker HyperPod コンピューティングノードを使用すると AWS リージョン、通信とネットワークのオーバーヘッドが発生する可能性があります。SageMaker HyperPod クラスターと FSx for Lustre ファイルシステム間のクロス AZ トラフィックを避けるため、SageMaker HyperPod サービスアカウントと同じ物理 AZ を使用することをお勧めします。さらに、VPC で設定済みであることも確認してください。Amazon FSx をストレージのメインファイルシステムとして使用する場合は、VPC で SageMaker HyperPod クラスターを設定する必要があります。