在 k8s HyperPod 上執行訓練任務 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 k8s HyperPod 上執行訓練任務

SageMaker HyperPod 配方支援將訓練任務提交至 GPU/Trainium Kubernetes 叢集。提交訓練任務之前,請先執行下列其中一項操作:

  • 修改k8s.yaml叢集組態檔案

  • 透過命令列覆寫叢集組態

完成上述任一步驟後,請安裝對應的環境。

使用 設定叢集 k8s.yaml

若要將訓練任務提交至 Kubernetes 叢集,您可以指定 Kubernetes 特定的組態。組態包括叢集命名空間或持久性磁碟區的位置。

pullPolicy: Always restartPolicy: Never namespace: default persistent_volume_claims: - null
  1. pullPolicy:您可以在提交訓練任務時指定提取政策。如果您指定「一律」,Kubernetes 叢集一律會從儲存庫提取映像。如需詳細資訊,請參閱映像提取政策

  2. restartPolicy:指定是否在訓練任務失敗時重新啟動。

  3. namespace:您可以指定要提交訓練任務的 Kubernetes 命名空間。

  4. persistent_volume_claims:您可以為訓練任務指定共用磁碟區,讓所有訓練程序存取磁碟區中的檔案。