更新 SageMaker HyperPod 平台軟體 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

更新 SageMaker HyperPod 平台軟體

當您建立 SageMaker HyperPod 叢集時, 會 SageMaker HyperPod 選取與 Amazon EKS叢集的 Kubernetes 版本對應的 Amazon Machine Image (AMI)。

執行 update-cluster-software 以使用 SageMaker HyperPod 服務提供的軟體和安全性修補程式來更新現有叢集。針對 --cluster-name,指定要更新的ARN叢集名稱或 。

重要
  • API 呼叫此選項時, SageMaker HyperPod 不會耗盡或重新分發節點上執行的任務 (Pod)。在呼叫此 之前,請務必檢查節點上是否有任何正在執行的任務API。

  • 修補程序會使用更新的 取代根磁碟區AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請務必將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。

  • 所有叢集節點在修補進行期間都會發生停機時間 (節點在 輸出<NotReady>中顯示為 kubectl get node)。我們建議您在修補之前終止所有工作負載,並在修補完成後繼續。

    如果安全修補程式失敗,您可以DescribeClusterAPI依照 的指示執行 來擷取失敗訊息描述叢集

aws sagemaker update-cluster-software --cluster-name your-hyperpod-cluster

呼叫 UpdateClusterSoftware 時API, SageMaker HyperPod DLAMI會根據 Amazon EKS叢集的 Kubernetes 版本選取最新的 ,以 SageMaker HyperPod 更新節點的 Kubernetes 版本。然後,它會在叢集建立或更新期間指定的 Amazon S3 儲存貯體中執行生命週期指令碼。

您可以執行 kubectl describe node命令來驗證節點的 kubelet 版本。

當您更新 Amazon SageMaker HyperPod 叢集版本時,EKS叢集節點的 Kubernetes 版本不會自動更新。更新 Amazon EKS叢集的 Kubernetes 版本後,您必須使用 UpdateClusterSoftwareAPI將 SageMaker HyperPod 叢集節點更新為相同的 Kubernetes 版本。

建議您在更新 Amazon EKS節點後更新 SageMaker HyperPod 叢集,並避免 Amazon EKS叢集版本和 SageMaker HyperPod 叢集節點版本之間存在多個版本差異。

SageMaker HyperPod 服務團隊會定期推出新的 SageMaker HyperPod DLAMI,以增強安全性並改善使用者體驗。建議您始終更新至最新的 SageMaker HyperPod DLAMI。如需安全 SageMaker HyperPod DLAMI修補的未來更新,請追蹤 Amazon SageMaker HyperPod 版本備註

注意

您只能以API程式設計方式執行此 。修補功能未在 SageMaker HyperPod 主控台 UI 中實作。