設定由 Amazon 協調的 SageMaker HyperPod 叢集儲存 EKS - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定由 Amazon 協調的 SageMaker HyperPod 叢集儲存 EKS

叢集管理員需要為資料科學家使用者設定儲存體,以在 SageMaker HyperPod 叢集訓練期間管理輸入和輸出資料並儲存檢查點。

處理大型資料集 (輸入/輸出資料)

  • 資料存取和管理:資料科學家通常使用訓練機器學習模型所需的大型資料集。在任務提交中指定儲存參數可讓它們定義資料集的位置 (例如 Amazon S3 儲存貯體、Kubernetes 中的持久性磁碟區),以及在任務執行期間存取它們的方式。

  • 效能最佳化 :存取輸入資料的效率可能會大幅影響訓練任務的效能。透過最佳化儲存參數,資料科學家可以確保有效率地讀取和寫入資料,從而減少 I/O 瓶頸。

儲存檢查點

  • 訓練中的檢查點:在長時間訓練任務期間,儲存檢查點是常見的做法,也就是模型的中繼狀態。這可讓資料科學家在故障時從特定時間點繼續訓練,而不是從頭開始。

  • 資料復原和實驗:透過指定檢查點的儲存位置,資料科學家可以確保這些檢查點安全地存放於提供備援和高可用性的分散式儲存系統中。這對於從中斷中復原和嘗試不同的訓練策略至關重要。

提示

如需有關如何為 SageMaker HyperPod與 Amazon 協調的叢集設定儲存體的實作體驗和指引EKS,請參閱 SageMaker HyperPod 研討會 中的 Amazon EKS Support 中的下列章節。