本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
GPU 錯誤的叢集修復
如果您在 GPU 上執行的訓練任務失敗,SageMaker AI 會執行 GPU 運作狀態檢查,以查看失敗是否與 GPU 問題相關。SageMaker AI 根據運作狀態檢查結果採取下列動作:
如果錯誤可以復原,並且可以透過重新啟動執行個體或重設 GPU 來修正,SageMaker AI 將重新啟動執行個體。
如果錯誤無法復原,且是由需要取代的 GPU 造成,SageMaker AI 將取代執行個體。
在 SageMaker AI 叢集修復程序中取代或重新啟動執行個體。在此過程中,您將在訓練任務狀態中看到下列訊息:
Repairing training cluster due to hardware failure
SageMaker AI 將嘗試修復叢集最多 10
次。如果叢集修復成功,SageMaker AI 會自動從先前的檢查點重新啟動訓練任務。如果叢集修復失敗,訓練任務也會失敗。您不需要支付叢集修復程序的費用。除非您的訓練任務失敗,否則不會啟動叢集修復。如果偵測到暖集區叢集的 GPU 問題,叢集會進入修復模式,以重新啟動或取代故障的執行個體。修復後,叢集仍可用作暖集區叢集。
下圖說明上述叢集和執行個體修復程序: