建立 SageMaker HyperPod 叢集 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立 SageMaker HyperPod 叢集

了解如何EKS使用 建立由 Amazon 協調的 SageMaker HyperPod AWS 叢集CLI。

  1. 建立 SageMaker HyperPod 叢集之前:

    1. 確保您已啟動並執行現有的 Amazon EKS叢集。如需如何設定 Amazon EKS叢集的詳細指示,請參閱 Amazon 使用者指南 中的建立 Amazon EKS叢集 EKS

    2. 按照 中的指示安裝 Helm Chart使用 Helm 在 Amazon EKS叢集上安裝套件

  2. 準備生命週期組態指令碼並上傳至 Amazon S3 儲存貯體,例如 s3://sagemaker-amzn-s3-demo-bucket>/<lifecycle-script-directory>/src/

    若要快速開始,on_create.sh請從 AWS ome Distributed Training GitHub 儲存庫下載範例指令碼,並將其上傳至 S3 儲存貯體。此指令碼會設定從 Pod 容器 CloudWatch 收集日誌/var/log/provision/provisioning.log所需的記錄檔案。您也可以包含額外的設定指示、一系列設定指令碼,或在 HyperPod 叢集佈建階段執行的命令。

    重要

    如果您建立僅IAM角色 SageMaker HyperPod連接受管 的 AmazonSageMakerClusterInstanceRolePolicy,您的叢集可以存取具有特定字首 的 Amazon S3 儲存貯體sagemaker-

  3. 準備 JSON 格式的CreateClusterAPI請求檔案。針對 ExecutionRole,提供您AmazonSageMakerClusterInstanceRolePolicy透過 受管 所建立IAM角色ARN的 。 IAM角色 SageMaker HyperPod

    注意

    確保您的 SageMaker HyperPod 叢集部署在與 Amazon EKS叢集相同的虛擬私有雲端 (VPC) 內。 SageMaker HyperPod 叢集組態中指定的子網路和安全群組必須允許與 Amazon EKS叢集的API伺服器端點進行網路連線和通訊。

    // create_cluster.json { "ClusterName": "string", "InstanceGroups": [{ "InstanceGroupName": "string", "InstanceType": "string", "InstanceCount": number, "LifeCycleConfig": { "SourceS3Uri": "s3://sagemaker-amzn-s3-demo-bucket>/<lifecycle-script-directory>/src/", "OnCreate": "on_create.sh" }, "ExecutionRole": "string", "ThreadsPerCore": number, "OnStartDeepHealthChecks": [ "InstanceStress", "InstanceConnectivity" ] }], "VpcConfig": { "SecurityGroupIds": ["string"], "Subnets": ["string"] }, "Tags": [{ "Key": "string", "Value": "string" }], "Orchestrator": { "Eks": { "ClusterArn": "string", } }, "NodeRecovery": "Automatic" }

    設定 以建立新的 SageMaker HyperPod 叢集與EKS叢集建立關聯時,請注意下列事項。

    • 您可以在 InstanceGroups 參數下設定最多 20 個執行個體群組。

    • 對於 Orchestator.Eks.ClusterArn,指定您要用作協調器ARN的EKS叢集的 。

    • 對於 OnStartDeepHealthChecks,新增 InstanceStressInstanceConnectivity以啟用 深層運作狀態檢查

    • 對於 NodeRecovery,請指定 Automatic 以啟用自動節點復原。當運作狀態監控代理程式發現問題時 SageMaker HyperPod , 會取代或重新啟動執行個體 (節點)。

    • 對於 Tags 參數,您可以新增自訂標籤,以將 SageMaker HyperPod 叢集管理為 AWS 資源。您可以將標籤新增至叢集,方式與在支援標記的其他服務 AWS 中新增標籤的方式相同。若要進一步了解一般如何 AWS 標記資源,請參閱標記 AWS 資源使用者指南

    • 針對 VpcConfig 參數,指定EKS叢集VPC中使用的 資訊。子網路必須是私有的。

  4. 執行 create-cluster 命令,如下所示。

    aws sagemaker create-cluster \ --cli-input-json file://complete/path/to/create_cluster.json

    這應該會傳回新叢集ARN的 。