更新 SageMaker HyperPod 叢集組態 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

更新 SageMaker HyperPod 叢集組態

執行 update-cluster 以更新叢集的組態。

注意

建立EKS叢集後,您無法變更叢集相關聯的叢集資訊 HyperPod。

注意

如果叢集上執行深層運作狀態檢查,這API將無法如預期般運作。您可能會遇到錯誤訊息,指出正在進行深層運作狀態檢查。若要更新叢集,您應該等到深層運作狀態檢查完成。

  1. 建立 JSON 格式的UpdateCluster請求檔案。請務必指定要更新的正確叢集名稱和執行個體群組名稱。您可以變更執行個體類型、執行個體數量、生命週期組態進入點指令碼,以及指令碼的路徑。

    1. 針對 ClusterName,指定您要更新的叢集名稱。

    2. 針對 InstanceGroupName

      1. 若要更新現有的執行個體群組,請指定您要更新的執行個體群組名稱。

      2. 若要新增執行個體群組,請指定叢集中不存在的新名稱。

    3. 針對 InstanceType

      1. 若要更新現有的執行個體群組,您必須符合您最初指定給群組的執行個體類型。

      2. 若要新增執行個體群組,請指定您要設定群組的執行個體類型。

    4. 針對 InstanceCount

      1. 若要更新現有的執行個體群組,請指定大於目前執行個體數目的整數。目前,您只能增加執行個體的數量。

      2. 若要新增執行個體群組,請指定大於或等於 1 的整數。

    5. 對於 LifeCycleConfig,您可以變更 SourceS3Uri和 的值,OnCreate因為您想要更新執行個體群組。

    6. 針對 ExecutionRole

      1. 若要更新現有的執行個體群組,請繼續使用IAM您在叢集建立期間連接的角色。

      2. 若要新增執行個體群組,請指定您要連接IAM的角色。

    7. 針對 ThreadsPerCore

      1. 若要更新現有的執行個體群組,請繼續使用您在叢集建立期間指定的相同值。

      2. 若要新增執行個體群組,您可以從每個執行個體類型的允許選項中選擇任何值。如需詳細資訊,請搜尋執行個體類型,並參閱 Amazon EC2使用者指南 中的每個執行個體CPU類型之核心參考表中每個CPU核心的有效執行緒和每個核心執行緒

    8. 對於 OnStartDeepHealthChecks,請新增 InstanceStressInstanceConnectivity以啟用 深層運作狀態檢查

    9. 對於 NodeRecovery,指定 Automatic以啟用自動節點復原。當運作狀態監控代理程式發現問題時 SageMaker HyperPod , 會取代或重新啟動執行個體 (節點)。

    下列程式碼片段是您可以使用的JSON請求檔案範本。如需此 的請求語法和參數的詳細資訊API,請參閱 UpdateClusterAPI參考。

    // update_cluster.json { // Required "ClusterName": "name-of-cluster-to-update", // Required "InstanceGroups": [{ "InstanceGroupName": "string", "InstanceType": "string", "InstanceCount": number, "LifeCycleConfig": { "SourceS3Uri": "string", "OnCreate": "string" }, "ExecutionRole": "string", "ThreadsPerCore": number, "OnStartDeepHealthChecks": [ "InstanceStress", "InstanceConnectivity" ] }], "NodeRecovery": "Automatic" }
  2. 執行下列update-cluster命令以提交請求。

    aws sagemaker update-cluster \ --cli-input-json file://complete/path/to/update_cluster.json