本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建議的恢復能力組態
啟用深層運作狀態檢查時,每當新的執行個體新增至 HyperPod 叢集 (建立叢集期間或透過自動節點取代) 時,新的執行個體會經過深層運作狀態檢查程序 (執行個體層級壓力測試) 大約幾個小時。根據可能的情況,建議使用下列彈性組態組合。
-
案例 :當您在叢集中有其他備用節點做為備份資源 (不使用完整容量) 時,或者您可以等待約 2 小時,讓深層運作狀態檢查程序取得較不容易出錯的執行個體。
建議 :在整個叢集生命週期中啟用深層運作狀態檢查組態。預設會啟用節點自動復原組態。
-
案例 :當您沒有其他備份節點時 (容量完全用於某些訓練負載)。您希望盡快取得替換節點,以繼續訓練任務。
建議 :在建立叢集期間啟用深層運作狀態檢查,然後在建立叢集後關閉深層運作狀態檢查組態。預設會啟用節點自動復原組態。
-
案例 :當您沒有其他備份節點,且您不想等待約 2 小時的深層運作狀態檢查程序 (小型叢集)。
建議 :停用整個叢集生命週期的深層運作狀態檢查組態。預設會啟用節點自動復原組態。
如果您想要立即從失敗中繼續訓練任務,請確定叢集中有其他備用節點做為備份資源。