SageMaker HyperPod を使用するための前提条件 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker HyperPod を使用するための前提条件

以下のセクションでは、SageMaker HyperPod の使用を開始する前に前提条件について説明します。

SageMaker HyperPod クォータ

AWS アカウントのクラスター使用量のクォータを考慮して、SageMaker HyperPod クラスターを作成できます。

重要

SageMaker HyperPod の料金の詳細については、SageMaker HyperPod の料金「」およびAmazon SageMaker AI の料金」を参照してください。

を使用して Amazon SageMaker HyperPod クォータを表示する AWS Management Console

SageMaker HyperPod に使用されるクラスター使用状況クォータ (制限とも呼ばれます) のデフォルト値と適用される値を検索します。

  1. Service Quotas コンソールを開きます。

  2. 左側のナビゲーションペインで [AWS services] ( のサービス) を選択します。

  3. AWS サービスリストから Amazon Amazon SageMakerを検索して選択します。

  4. Service Quotas リストでは、Service Quotas 名、適用された値 (使用可能な場合)、 AWS デフォルトのクォータ、およびクォータ値が調整可能かどうかを確認できます。

  5. 検索バーに、「クラスター使用状況」と入力します。クラスター使用状況のクォータ、適用されるクォータ、およびデフォルトのクォータが表示されます。

を使用して Amazon SageMaker HyperPod クォータの引き上げをリクエストする AWS Management Console

アカウントまたはリソースレベルでクォータを引き上げます。

  1. クラスター使用状況のインスタンスのクォータを引き上げるには、引き上げ対象のクォータを選択します。

  2. クォータが調整可能な場合、[調整可能性] 列にリストされている値に基づいて、アカウントレベルまたはリソースレベルでクォータの引き上げをリクエストできます。

  3. [クォータ値を引き上げる] に、新しい値を入力します。新しい値は現在値よりも大きい値である必要があります。

  4. [リクエスト] を選択します。

  5. 保留中または最近解決されたリクエストをコンソールに表示するには、サービスの詳細ページから [リクエスト履歴] タブに移動するか、ナビゲーションペインから [ダッシュボード] を選択します。保留中のリクエストの場合は、リクエストのステータスを選択してリクエストの受信をオープンします。リクエストの初期ステータスは [Pending] (保留中) です。ステータスがリクエストされたクォータに変わると、ケース番号が表示されます AWS サポート。リクエストのチケットを開くには、ケース番号を選択します。

クォータの引き上げをリクエストする方法の全般的な詳細については、「AWS Service Quotas ユーザーガイド」の「Requesting a Quota Increase」を参照してください。

カスタム Amazon VPC を使用した SageMaker HyperPod のセットアップ

カスタム Amazon VPC で SageMaker HyperPod クラスターを設定するには、次の前提条件を確認してください。

注記

Amazon EKS オーケストレーションには VPC 設定が必須です。Slurm オーケストレーションの場合、VPC のセットアップはオプションです。

  • カスタム VPC で SageMaker HyperPod クラスターを作成する AWS アカウント 前に、 で Elastic Network Interface (ENI) 容量を検証します。ENI の制限は Amazon EC2 によって制御され、によって異なります AWS リージョン。SageMaker HyperPod はクォータの引き上げを自動的にリクエストできません。

    現在の ENI クォータを確認するには:
    1. Service Quotas コンソールを開きます。

    2. 「クォータの管理」セクションで、 AWS サービスドロップダウンリストを使用して VPC を検索します。

    3. Amazon Amazon Virtual Private Cloud VPC) のクォータを表示するには、 を選択します。

    4. リージョンごとのサービスクォータネットワークインターフェイスまたはクォータコード を探しますL-DF5E4CA3

    現在の ENI 制限が SageMaker HyperPod クラスターのニーズに不十分な場合は、クォータの引き上げをリクエストしてください。事前に十分な ENI 容量を確保しておくと、クラスターのデプロイの失敗を防ぐことができます。

  • カスタム VPC を使用して SageMaker HyperPod クラスター AWS を リソースに接続する場合は、クラスターの作成時に VPC 名、ID AWS リージョン、サブネット IDs、セキュリティグループ IDsを指定します。

    注記

    Amazon VPC とサブネットがクラスターVPCConfigの または の OverrideVPCConfig 属性を使用してインスタンスグループレベルで IPv6 をサポートしている場合ClusterInstanceGroupSpecification、ネットワーク通信はクラスターオーケストレーションプラットフォームによって異なります。

    • Slurm オーケストレーションされたクラスターは、デュアル IPv6 アドレスと IPv4 アドレスを使用してノードを自動的に設定し、IPv6 ネットワーク通信をすぐに実行できるようにします。VPCConfig IPv6 設定以外に追加の設定は必要ありません。

    • EKS オーケストレーションされたクラスターでは、ノードはデュアルスタックのアドレス指定を受け取りますが、ポッドは Amazon EKS クラスターが明示的に IPv6 IPv6-enabledを使用できます。新しい IPv6 Amazon EKS クラスターを作成する必要があります。既存の IPv4 Amazon EKS クラスターを IPv6 に変換することはできません。IPv6 Amazon EKS クラスターのデプロイについては、Amazon EKS IPv6 クラスターのデプロイ」を参照してください。

    IPv6 設定の追加リソース:

  • すべてのリソースが SageMaker HyperPod クラスター AWS リージョン と同じ にデプロイされていることを確認します。VPC 内のリソース間通信を許可するようにセキュリティグループルールを設定します。例えば、 で VPC を作成する場合us-west-2、1 つ以上のアベイラビリティーゾーン ( us-west-2a や などus-west-2b) にサブネットをプロビジョニングし、グループ内トラフィックを許可するセキュリティグループを作成します。

    注記

    SageMaker HyperPod は、マルチアベイラビリティーゾーンのデプロイをサポートしています。詳細については、「複数の AZs にまたがる SageMaker HyperPod クラスターの設定」を参照してください。

  • VPC エンドポイントを作成して、VPC にデプロイされた SageMaker HyperPod インスタンスグループの Amazon Simple Storage Service (Amazon S3) 接続を確立します。インターネットアクセスがないと、インスタンスグループはライフサイクルスクリプト、トレーニングデータ、モデルアーティファクトを保存または取得できません。Amazon S3 バケットのプライベート VPC へのアクセスを制限するカスタム IAM ポリシーを作成することをお勧めします。詳細については、「AWS PrivateLink ユーザーガイド」の「Amazon S3 におけるエンドポイント」を参照してください。

  • Elastic Fabric Adapter (EFA) 対応インスタンスを使用する HyperPod クラスターの場合、セキュリティグループ自体との間で送受信されるすべてのトラフィックを許可するようにセキュリティグループを設定します。具体的には、アウトバウンドルール0.0.0.0/0に を使用しないでください。これにより、EFA ヘルスチェックが失敗する可能性があります。EFA セキュリティグループ準備ガイドラインの詳細については、Amazon EC2 ユーザーガイド」の「ステップ 1: EFA 対応セキュリティグループを準備する」を参照してください。

複数の AZs にまたがる SageMaker HyperPod クラスターの設定

複数のアベイラビリティーゾーン (AZs) にまたがる SageMaker HyperPod クラスターを設定して、信頼性と可用性を向上させることができます。

注記

Elastic Fabric Adapter (EFA) トラフィックは AZs または VPCs経由できません。これはEFA インターフェイスの ENA デバイスからの通常の IP トラフィックには適用されません。詳細については、「EFA の制限」を参照してください。

  • デフォルトの動作

    HyperPod は、すべてのクラスターインスタンスを単一のアベイラビリティーゾーンにデプロイします。VPC 設定によって、デプロイ AZ が決まります。

    • Slurm オーケストレーションされたクラスターの場合、VPC 設定はオプションです。VPC 設定が指定されていない場合、HyperPod はデフォルトでプラットフォーム VPC から 1 つのサブネットに設定されます。

    • EKS オーケストレーションされたクラスターの場合、VPC 設定が必要です。

    • Slurm オーケストレーターと EKS オーケストレーターの両方で、 が指定されている場合、HyperPod VpcConfigは指定された VpcConfigのサブネットリストからサブネットを選択します。すべてのインスタンスグループは、サブネットの AZ を継承します。

    注記

    クラスターを作成すると、そのVpcConfig設定を変更することはできません。

    HyperPod クラスターVPCs の設定の詳細については、前のセクション「」を参照してくださいカスタム Amazon VPC を使用した SageMaker HyperPod のセットアップ

  • マルチ AZ 設定

    クラスターを作成するとき、または既存のクラスターに新しいインスタンスグループを追加するときに、複数の AZs にまたがって HyperPod クラスターを設定できます。マルチ AZ 配置を設定するには、クラスター内の個々のインスタンスグループに、異なるアベイラビリティーゾーン間で異なるサブネットとセキュリティグループを指定することで、クラスターのデフォルトの VPC 設定を上書きできます。

    SageMaker HyperPod API ユーザーは、 CreateClusterまたは UpdateCluster APIs を操作するときに ClusterInstanceGroupSpecification 内の OverrideVpcConfigプロパティを使用できます。

    OverrideVpcConfig フィールド:

    • インスタンスグループの作成後に変更することはできません。

    • オプションです。指定しない場合、クラスターレベルVpcConfigがデフォルトとして使用されます。

    • Slurm オーケストレーションされたクラスターの場合、 はクラスターレベルVpcConfigが指定されている場合にのみ指定できます。クラスターレベルで VpcConfigが指定されていない場合、 OverrideVpcConfig はどのインスタンスグループにも使用できません。

    • 次の 2 つの必須フィールドが含まれます。

      • Subnets - 1~16 個のサブネット IDs

      • SecurityGroupIds - 1~5 個のセキュリティグループ IDs

    SageMaker HyperPod コンソール UI または を使用して SageMaker HyperPod クラスターを作成または更新する方法の詳細については、以下を参照してください AWS CLI。

注記

複数の AZs でワークロードを実行する場合、AZs 間のネットワーク通信はレイテンシーの増加につながることに注意してください。レイテンシーの影響を受けやすいアプリケーションを設計する場合は、この影響を考慮してください。

クラスターユーザーアクセスコントロールのセットアップ AWS Systems Manager と Run As

SageMaker HyperPod DLAMI には、SageMaker HyperPod クラスターインスタンスグループへのアクセスを管理するのに役立つ AWS Systems Manager (SSM) が付属しています。このセクションでは、SageMaker HyperPod クラスターにオペレーティングシステム (OS) ユーザーを作成し、IAM ユーザーとロールに関連付ける方法について説明します。これは、OS ユーザーアカウントの認証情報を使用して SSM セッションを認証するのに役立ちます。

注記

HyperPod クラスターノードへのアクセス権をユーザーに付与すると、ユーザーはノードにユーザー管理ソフトウェアをインストールして操作できます。ユーザーの最小特権のアクセス許可の原則を維持してください。

AWS アカウントで Run As を有効にする

AWS アカウント管理者またはクラウド管理者は、SSM の Run As 機能を使用して、IAM ロールまたはユーザーレベルで SageMaker HyperPod クラスターへのアクセスを管理できます。 https://docs.aws.amazon.com/systems-manager/latest/userguide/session-preferences-run-as.htmlこの機能を使用すると、IAM ロールまたはユーザーに関連付けられた OS ユーザーを使用して、各 SSM セッションを開始できます。

AWS アカウントで Run As を有効にするには、「Linux および macOS マネージドノードの Run As サポートを有効にする」の手順に従います。クラスターで OS ユーザーを既に作成している場合、「Linux と macOS のマネージドノードで Run As サポートを有効にする」のステップ 5 のオプション 2 で説明されているようにタグ付けすることにより、それらを IAM ロールまたはユーザーに関連付けてください。

(オプション) Amazon FSx for Lustre で SageMaker HyperPod を設定する

SageMaker HyperPod の使用を開始し、クラスターと FSx for Lustre ファイルシステム間のデータパスのマッピングを開始するには、SageMaker HyperPod で AWS リージョン サポートされている のいずれかを選択します。 AWS リージョン 任意の を選択したら、使用するアベイラビリティーゾーン (AZ) も決定する必要があります。

同じ 内で FSx for Lustre ファイルシステムがセットアップされている AZs とは異なる AZs で SageMaker HyperPod コンピューティングノードを使用すると AWS リージョン、通信とネットワークのオーバーヘッドが発生する可能性があります。SageMaker HyperPod クラスターと FSx for Lustre ファイルシステム間のクロス AZ トラフィックを避けるため、SageMaker HyperPod サービスアカウントと同じ物理 AZ を使用することをお勧めします。さらに、VPC で設定済みであることも確認してください。Amazon FSx をストレージのメインファイルシステムとして使用する場合は、VPC で SageMaker HyperPod クラスターを設定する必要があります。