選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

使用 Amazon EKS 協調 SageMaker HyperPod 叢集

焦點模式
使用 Amazon EKS 協調 SageMaker HyperPod 叢集 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 是一項 SageMaker AI 受管服務,可在長時間執行且具彈性的運算叢集上大規模訓練基礎模型,並與 Amazon EKS 整合以協調 HyperPod 運算資源。您可以使用具有 HyperPod 彈性功能的 Amazon EKS 叢集,大規模執行持續數週或數月的訓練任務,以檢查各種硬體故障並自動復原故障節點。

叢集管理員使用者的主要功能包括下列項目。

對於資料科學家使用者,HyperPod 中的 EKS 支援會啟用下列項目。

  • 在 HyperPod 叢集上執行訓練基礎模型的容器化工作負載

  • 在 EKS 叢集上執行推論,利用 HyperPod 和 EKS 之間的整合

  • 利用任務自動恢復功能進行 Kubeflow PyTorch 訓練 (PyTorchJob)

注意

Amazon EKS 透過 Amazon EKS 控制平面,在 SageMaker HyperPod 上啟用使用者管理的任務和基礎設施協調。確保使用者透過 Kubernetes API Server 端點存取叢集,遵循最低權限原則,且 HyperPod 叢集的網路輸出已受到保護。

若要進一步了解如何保護對 Amazon EKS API Server 的存取,請參閱控制對叢集 API 伺服器端點的網路存取

若要進一步了解如何在 HyperPod 上保護網路存取,請參閱 使用自訂 Amazon VPC 設定 SageMaker HyperPod

HyperPod 中 Amazon EKS 支援的高階架構涉及 EKS 叢集 (控制平面) 與 VPC 內的 HyperPod 叢集 (工作者節點) 之間的一對一映射,如下圖所示。

EKS and HyperPod VPC architecture with control plane, 叢集 nodes, and AWS 服務.
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。