本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 k8s HyperPod 上執行訓練任務
SageMaker HyperPod 配方支援將訓練任務提交至 GPU/Trainium Kubernetes 叢集。提交訓練任務之前,請先執行下列其中一項操作:
-
修改
k8s.yaml
叢集組態檔案 -
透過命令列覆寫叢集組態
完成上述任一步驟後,請安裝對應的環境。
使用 設定叢集 k8s.yaml
若要將訓練任務提交至 Kubernetes 叢集,您可以指定 Kubernetes 特定的組態。組態包括叢集命名空間或持久性磁碟區的位置。
pullPolicy: Always restartPolicy: Never namespace: default persistent_volume_claims: - null
-
pullPolicy
:您可以在提交訓練任務時指定提取政策。如果您指定「一律」,Kubernetes 叢集一律會從儲存庫提取映像。如需詳細資訊,請參閱映像提取政策。 -
restartPolicy
:指定是否在訓練任務失敗時重新啟動。 -
namespace
:您可以指定要提交訓練任務的 Kubernetes 命名空間。 -
persistent_volume_claims
:您可以為訓練任務指定共用磁碟區,讓所有訓練程序存取磁碟區中的檔案。