建議的彈性配置 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建議的彈性配置

啟用深度健康狀態檢查後,每當新增執行個體至叢集時 (無論是在建立 HyperPod 叢集期間或透過自動節點取代),新執行個體都會經過深度健康狀態檢查程序 (執行個體層級 stress 測試) 大約幾個小時。根據可能的情況,以下是建議的彈性配置組合。

  1. 案例:當您在叢集中有其他備用節點作為備份資源 (不使用完整容量),或者您可以等待大約 2 小時,讓深度健全狀況檢查程序取得較不容易出錯的執行個體時。

    建議:在整個叢集生命週期中啟用深度健康狀態檢查設定。預設會啟用節點自動復原設定。

  2. 案例:當您沒有額外的備份節點時(容量已完全用於某些訓練負載)。您希望盡快取得取代節點,以繼續訓練工作。

    :在叢集建立期間啟用深度健全狀況檢查,然後在建立叢集後關閉深度健全狀況檢查配置。預設會啟用節點 auto 復原設定。

  3. 案例:當您沒有其他備份節點,且不想等待約 2 小時的深度健康狀態檢查程序 (小型叢集) 時。

    建議:在整個叢集生命週期中停用深度健全狀況檢查設定。預設會啟用節點 auto 復原設定。

如果您想要立即從失敗中繼續訓練工作,請確定叢集中有額外的備用節點做為備份資源。