

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用 HyperPod 訓練運算子
<a name="sagemaker-eks-operator"></a>

 Amazon SageMaker HyperPod 訓練運算子透過跨大型 GPU 叢集有效管理分散式訓練，協助您加速生成式 AI 模型開發。它引入智慧型故障復原、當掉任務偵測和程序層級管理功能，將訓練中斷減至最低並降低成本。與發生故障時需要完整重新啟動任務的傳統訓練基礎設施不同，此運算子會實作手術程序復原，讓您的訓練任務順利執行。

 運算子也會使用 HyperPod 的運作狀態監控和可觀測性函數，提供訓練執行的即時可見性，並自動監控損失尖峰和輸送量降低等關鍵指標。您可以透過簡單的 YAML 組態定義復原政策，而無需變更程式碼，可讓您快速回應無法復原的訓練狀態並從中復原。這些監控和復原功能會共同運作，以維持最佳的訓練效能，同時將操作負荷降至最低。

 雖然此訓練運算子不需要 Kueue，但您的叢集管理員可以安裝和設定它，以增強任務排程功能。如需詳細資訊，請參閱 [Kueue 官方文件](https://kueue.sigs.k8s.io/docs/overview/)。

**注意**  
若要使用訓練運算子，您必須使用最新的 [HyperPod AMI 版本](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-release-ami-eks.html)。若要升級，請使用 [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html) API 操作。如果您使用 [HyperPod 任務治理](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-operate-console-ui-governance.html)，它也必須是最新版本。

## 支援的版本
<a name="sagemaker-eks-operator-supported-versions"></a>

 HyperPod 訓練運算子僅會使用特定版本的 Kubernetes、Kueue 和 HyperPod。如需相容版本的完整清單，請參閱下列清單。
+ 支援的 Kubernetes 版本 – 1.28、1.29、1.30、1.31、1.32 和 1.33
+ 建議的 Kueue 版本 - [v0.12.2](https://github.com/kubernetes-sigs/kueue/releases/tag/v0.12.2) 和 [v0.12.3](https://github.com/kubernetes-sigs/kueue/releases/tag/v0.12.3)
+ 最新的 HyperPod AMI 版本。若要升級至最新的 AMI 版本，請使用 [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html) API。
+ [PyTorch 2.4.0 – 2.7.1](https://github.com/pytorch/pytorch/releases)

**注意**  
我們收集某些例行彙總和匿名操作指標，以提供必要的服務可用性。這些指標的建立是全自動化的，不涉及基礎模型訓練工作負載的人工審核。這些指標與任務操作、資源管理和基本服務功能相關。