開始使用 Amazon EKS 支持 SageMaker HyperPod - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

開始使用 Amazon EKS 支持 SageMaker HyperPod

除了的一般使用 SageMaker HyperPod 的先決條件規定之外 SageMaker HyperPod,請查看下列使用 Amazon EKS 協調 SageMaker HyperPod 叢集的需求和考量事項。

需求

注意

在建立 HyperPod 叢集之前,您需要使用 Helm 設定VPC並安裝執行中的 Amazon EKS 叢集。

佈建 Amazon EKS 叢集時,請考慮下列事項:

  1. 庫伯尼特版本支援

    • SageMaker HyperPod 支援庫伯氏版本 1.28、1.29 和 1.30 版。

  2. Amazon EKS 叢集身份驗證模式

    • 支援的 Amazon EKS 叢集的身份驗證模式 SageMaker HyperPod 為APIAPI_AND_CONFIG_MAP

  3. 聯網

  4. IAM角色

  5. Amazon EKS 群集附加

    • 您可以繼續使用 Amazon 提供的各種附加組件,EKS例如 Kube-proxy核心 DNSAmazon VPC 容器網絡界面(CNI)插件,Amazon 網EKS繭身份, GuardDuty代理,Amazon FSx 容器存儲界面(CSI)驅動程序,Amazon S3 驅動程序的掛載點,CSI AWS 發行版 OpenTelemetry,以及 CloudWatch可觀察性代理。

使用 Amazon 設定 SageMaker HyperPod 叢集的考量事項 EKS

  • 您無法將其他EBS磁碟區直接掛接至 HyperPod 叢集節點上執行的 Pod。相反,您需InstanceStorageConfigs要利用佈建和掛接其他EBS磁碟區到 HyperPod 節點。請務必注意,在建立或更新 HyperPod 叢集時,您只能將額外的EBS磁碟區連接至新的執行個體群組。使用這些額外EBS磁碟區設定執行個體群組後,您必須在 Amazon P EKS od 組態檔中設定本機路徑,才/opt/sagemaker能將磁碟區正確掛接到 Amazon EKS Pod。

  • 您可以在 HyperPod 節點上部署 Amazon EBS CSI (容器儲存界面) 控制器。但是,有助於EBS磁碟區掛載和卸載的 Amazon EBS CSI 節點 DaemonSet只能在非執行個體上HyperPod 執行。如果您使用執行個體類型標籤來定義排程條件約束,請務必使用前置詞為的 SageMaker ML 執行個體類型。ml.例如,對於 P5 執行個體,請使用ml.p5.48xlarge而非。p5.48xlarge

使用 Amazon 為 SageMaker HyperPod 叢集設定網路的考量事項 EKS

  • 每個 HyperPod 叢集執行個體都支援一個彈性網路介面 (ENI)。如需每個執行個體類型的 Pod 數目上限,請參閱下表。

    執行個體類型 最大網繭數量
    ml.p4d.24xlarge 49
    mlp4d.24xlarge 49
    毫升 .48 倍大 49
    毫升 .trn1.32 倍大 49
    毫升 .trn1n.32 倍大 49
    ml.g5.xlarge 14
    ml.g5.2xlarge 14
    ml.g5.4xlarge 29
    ml.g5.8xlarge 29
    ml.g5.12xlarge 49
    ml.g5.16xlarge 29
    ml.g5.24xlarge 49
    ml.g5.48xlarge 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xlarge 29
    ml.c5.18xlarge 49
    ml.c5.24xlarge 49
    毫升 c5。大 9
    毫升 c5n.2 倍大 14
    毫升 c5n.4 倍大 29
    毫升 c5n.9 倍大 29
    毫升 c5n.18 倍大 49
    ml.m5.large 9
    ml.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    ml.t3.medium 5
    ml.t3.large 11
    ml.t3.xlarge 14
    ml.t3.2xlarge 14
  • 預設情況下,只hostNetwork = true有具有 Amazon EC2 執行個體中繼資料服務 (IMDS) 存取權的網繭。使用 Amazon EKS Pod 身分識別或服務帳戶的IAM角色 (IRSA) 來管理對 AWS 網繭的認證。

  • SageMaker HyperPod 叢集目前僅支援 IPv4 IP 位址。IPv6目前不支援 IP 位址。

使用 HyperPod 叢集恢復功能的考量

  • CPU執行個體不支援節點自動取代。

  • 必須安裝 HyperPod 健全狀況監視代理程式,節點自動復原才能運作。可以使用 Helm 安裝代理程式。如需詳細資訊,請參閱使用 Helm 在 Amazon EKS叢集上安裝套件

  • HyperPod 深度健康狀態檢查和健康狀態監控代理程式支援GPU和 Trn 執行個體

  • SageMaker 當節點進行深度健康狀態檢查時,將以下污點套用至節點:

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    注意

    您無法在DeepHealthChecks開啟的情況下將自訂污點新增至執行個體群組中的節點。

Amazon EKS 叢集執行後,請在建立叢集使用 Helm 在 Amazon EKS叢集上安裝套件之前,按照中所述的指示使用 Helm 套件管理員設定 HyperPod 叢集。