選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

更新 SageMaker HyperPod 平台軟體

焦點模式
更新 SageMaker HyperPod 平台軟體 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

當您建立 SageMaker HyperPod 叢集時,SageMaker HyperPod 會選取對應於 Amazon EKS 叢集 Kubernetes 版本的 Amazon Machine Image (AMI)。

執行 update-cluster-software,使用 SageMaker HyperPod 服務提供的軟體和安全性修補程式來更新現有叢集。針對 --cluster-name,指定要更新的叢集名稱或 ARN。

重要
  • 呼叫此 API 時,SageMaker HyperPod 不會耗盡或重新分配節點上執行的任務 (Pod)。呼叫此 API 之前,請務必檢查節點上是否有任何正在執行的任務。

  • 修補程序會將根磁碟區取代為更新的 AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請確定您將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。

  • 所有叢集節點在修補進行時都會經歷停機時間 (節點在 的輸出<NotReady>中顯示為 kubectl get node)。我們建議您在修補之前終止所有工作負載,並在修補完成後繼續。

    如果安全修補程式失敗,您可以依照 的指示執行 DescribeCluster API 來擷取失敗訊息描述叢集

aws sagemaker update-cluster-software --cluster-name your-hyperpod-cluster

呼叫 UpdateClusterSoftware API 時,SageMaker HyperPod SageMaker HyperPod DLAMI會根據 Amazon EKS 叢集的 Kubernetes 版本選取最新的 ,以更新節點的 Kubernetes 版本。然後,它會在叢集建立或更新期間指定的 Amazon S3 儲存貯體中執行生命週期指令碼。

您可以執行 kubectl describe node命令來驗證節點的 kubelet 版本。

當您更新 Amazon EKS 叢集版本時,不會自動更新 SageMaker HyperPod 叢集節點的 Kubernetes 版本。更新 Amazon EKS 叢集的 Kubernetes 版本後,您必須使用 UpdateClusterSoftware API 將 SageMaker HyperPod 叢集節點更新為相同的 Kubernetes 版本。

建議您在更新 Amazon EKS 節點後更新 SageMaker HyperPod 叢集,並避免 Amazon EKS 叢集版本和 SageMaker HyperPod 叢集節點版本之間存在多個版本差異。

SageMaker HyperPod 服務團隊會定期推出新的 SageMaker HyperPod DLAMI,以增強安全性並改善使用者體驗。建議您一律持續更新至最新的 SageMaker HyperPod DLAMI。針對未來的 SageMaker HyperPod DLAMI 更新以進行安全性修補,請追蹤 Amazon SageMaker HyperPod 版本備註

注意

您只能以程式設計方式執行此 API。修補功能未在 SageMaker HyperPod 主控台 UI 中實作。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。