本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
開始使用 Amazon EKS 支持 SageMaker HyperPod
除了的一般使用 SageMaker HyperPod 的先決條件規定之外 SageMaker HyperPod,請查看下列使用 Amazon EKS 協調 SageMaker HyperPod 叢集的需求和考量事項。
需求
注意
在建立 HyperPod 叢集之前,您需要使用 Helm 設定VPC並安裝執行中的 Amazon EKS 叢集。
-
如果使用 SageMaker 主控台,您可以在EKS叢集主控台頁面中建立 Amazon HyperPod 叢集。如需詳細資訊,請參閱建立 SageMaker HyperPod 叢集。
-
如果使用 AWS CLI,您應該先建立 Amazon EKS 叢集,然後再建立要關聯的 HyperPod 叢集。如需詳細資訊,請參閱 Amazon EKS 使用者指南中的建立 Amazon EKS 叢集。
佈建 Amazon EKS 叢集時,請考慮下列事項:
-
庫伯尼特版本支援
-
SageMaker HyperPod 支援庫伯氏版本 1.28、1.29 和 1.30 版。
-
-
Amazon EKS 叢集身份驗證模式
-
支援的 Amazon EKS 叢集的身份驗證模式 SageMaker HyperPod 為
API
和API_AND_CONFIG_MAP
。
-
-
聯網
-
SageMaker HyperPod 需要 Amazon VPC 容器網路界面 (CNI) 外掛程式版本 1.18.3 或更新版本。
注意
AWS VPCCNIKubernetes 的外掛程式
是唯CNI一支援的。 SageMaker HyperPod -
HyperPod叢集中的子網路類型VPC必須是私有的。
-
-
IAM角色
-
確保按照AWS Identity and Access Management 對於 SageMaker HyperPod本節中的 HyperPod 指導設定的必要IAM角色。
-
-
Amazon EKS 群集附加
-
您可以繼續使用 Amazon 提供的各種附加組件,EKS例如 Kube-proxy,核心 DNS,Amazon VPC 容器網絡界面(CNI)插件,Amazon 網EKS繭身份, GuardDuty代理,Amazon FSx 容器存儲界面(CSI)驅動程序,Amazon S3 驅動程序的掛載點,CSI AWS 發行版 OpenTelemetry,以及 CloudWatch可觀察性代理。
-
使用 Amazon 設定 SageMaker HyperPod 叢集的考量事項 EKS
-
您無法將其他EBS磁碟區直接掛接至 HyperPod 叢集節點上執行的 Pod。相反,您需InstanceStorageConfigs要利用佈建和掛接其他EBS磁碟區到 HyperPod 節點。請務必注意,在建立或更新 HyperPod 叢集時,您只能將額外的EBS磁碟區連接至新的執行個體群組。使用這些額外EBS磁碟區設定執行個體群組後,您必須在 Amazon P EKS od 組態檔中設定本機路徑
,才 /opt/sagemaker
能將磁碟區正確掛接到 Amazon EKS Pod。 -
您可以在 HyperPod 節點上部署 Amazon EBS CSI (容器儲存界面) 控制器。但是,有助於EBS磁碟區掛載和卸載的 Amazon EBS CSI 節點 DaemonSet只能在非執行個體上HyperPod 執行。如果您使用執行個體類型標籤來定義排程條件約束,請務必使用前置詞為的 SageMaker ML 執行個體類型。
ml.
例如,對於 P5 執行個體,請使用ml.p5.48xlarge
而非。p5.48xlarge
使用 Amazon 為 SageMaker HyperPod 叢集設定網路的考量事項 EKS
-
每個 HyperPod 叢集執行個體都支援一個彈性網路介面 (ENI)。如需每個執行個體類型的 Pod 數目上限,請參閱下表。
執行個體類型 最大網繭數量 ml.p4d.24xlarge 49 mlp4d.24xlarge 49 毫升 .48 倍大 49 毫升 .trn1.32 倍大 49 毫升 .trn1n.32 倍大 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 毫升 c5。大 9 毫升 c5n.2 倍大 14 毫升 c5n.4 倍大 29 毫升 c5n.9 倍大 29 毫升 c5n.18 倍大 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 -
預設情況下,只
hostNetwork = true
有具有 Amazon EC2 執行個體中繼資料服務 (IMDS) 存取權的網繭。使用 Amazon EKS Pod 身分識別或服務帳戶的IAM角色 (IRSA) 來管理對 AWS 網繭的認證。 -
SageMaker HyperPod 叢集目前僅支援 IPv4 IP 位址。IPv6目前不支援 IP 位址。
使用 HyperPod 叢集恢復功能的考量
CPU執行個體不支援節點自動取代。
必須安裝 HyperPod 健全狀況監視代理程式,節點自動復原才能運作。可以使用 Helm 安裝代理程式。如需詳細資訊,請參閱使用 Helm 在 Amazon EKS叢集上安裝套件。
-
HyperPod 深度健康狀態檢查和健康狀態監控代理程式支援GPU和 Trn 執行個體
-
SageMaker 當節點進行深度健康狀態檢查時,將以下污點套用至節點:
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
注意
您無法在
DeepHealthChecks
開啟的情況下將自訂污點新增至執行個體群組中的節點。
Amazon EKS 叢集執行後,請在建立叢集使用 Helm 在 Amazon EKS叢集上安裝套件之前,按照中所述的指示使用 Helm 套件管理員設定 HyperPod 叢集。