本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立 SageMaker HyperPod 叢集
了解如何EKS使用 建立由 Amazon 協調的 SageMaker HyperPod AWS 叢集CLI。
-
建立 SageMaker HyperPod 叢集之前:
-
確保您已啟動並執行現有的 Amazon EKS叢集。如需如何設定 Amazon EKS叢集的詳細指示,請參閱 Amazon 使用者指南 中的建立 Amazon EKS叢集。 EKS
-
按照 中的指示安裝 Helm Chart使用 Helm 在 Amazon EKS叢集上安裝套件。
-
-
準備生命週期組態指令碼並上傳至 Amazon S3 儲存貯體,例如
s3://sagemaker-amzn-s3-demo-bucket>/<lifecycle-script-directory>/src/
。若要快速開始,
on_create.sh
請從 AWS ome Distributed Training GitHub 儲存庫下載範例指令碼,並將其上傳至 S3 儲存貯體。此指令碼會設定從 Pod 容器 CloudWatch 收集日誌 /var/log/provision/provisioning.log
所需的記錄檔案。您也可以包含額外的設定指示、一系列設定指令碼,或在 HyperPod 叢集佈建階段執行的命令。重要
如果您建立僅IAM角色 SageMaker HyperPod連接受管 的
AmazonSageMakerClusterInstanceRolePolicy
,您的叢集可以存取具有特定字首 的 Amazon S3 儲存貯體sagemaker-
。 -
準備 JSON 格式的CreateClusterAPI請求檔案。針對
ExecutionRole
,提供您AmazonSageMakerClusterInstanceRolePolicy
透過 受管 所建立IAM角色ARN的 。 IAM角色 SageMaker HyperPod注意
確保您的 SageMaker HyperPod 叢集部署在與 Amazon EKS叢集相同的虛擬私有雲端 (VPC) 內。 SageMaker HyperPod 叢集組態中指定的子網路和安全群組必須允許與 Amazon EKS叢集的API伺服器端點進行網路連線和通訊。
// create_cluster.json
{ "ClusterName":"string"
, "InstanceGroups": [{ "InstanceGroupName":"string"
, "InstanceType":"string"
, "InstanceCount":number
, "LifeCycleConfig": { "SourceS3Uri":"s3://sagemaker-amzn-s3-demo-bucket>/<lifecycle-script-directory>/src/"
, "OnCreate":"on_create.sh"
}, "ExecutionRole":"string"
, "ThreadsPerCore":number
, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"
] }], "VpcConfig": { "SecurityGroupIds": ["string"
], "Subnets": ["string"
] }, "Tags": [{ "Key":"string"
, "Value":"string"
}], "Orchestrator": { "Eks": { "ClusterArn":"string"
, } }, "NodeRecovery": "Automatic" }設定 以建立新的 SageMaker HyperPod 叢集與EKS叢集建立關聯時,請注意下列事項。
-
您可以在
InstanceGroups
參數下設定最多 20 個執行個體群組。 -
對於
Orchestator.Eks.ClusterArn
,指定您要用作協調器ARN的EKS叢集的 。 -
對於
OnStartDeepHealthChecks
,新增InstanceStress
和InstanceConnectivity
以啟用 深層運作狀態檢查。 -
對於
NodeRecovery
,請指定Automatic
以啟用自動節點復原。當運作狀態監控代理程式發現問題時 SageMaker HyperPod , 會取代或重新啟動執行個體 (節點)。 -
對於
Tags
參數,您可以新增自訂標籤,以將 SageMaker HyperPod 叢集管理為 AWS 資源。您可以將標籤新增至叢集,方式與在支援標記的其他服務 AWS 中新增標籤的方式相同。若要進一步了解一般如何 AWS 標記資源,請參閱標記 AWS 資源使用者指南 。 -
針對
VpcConfig
參數,指定EKS叢集VPC中使用的 資訊。子網路必須是私有的。
-
-
執行 create-cluster 命令,如下所示。
aws sagemaker create-cluster \ --cli-input-json
file://complete/path/to/create_cluster.json
這應該會傳回新叢集ARN的 。