依 的復原能力相關 Kubernetes 標籤 SageMaker HyperPod - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

依 的復原能力相關 Kubernetes 標籤 SageMaker HyperPod

標籤是附加至 Kubernetes 物件的鍵值對。 SageMaker HyperPod 會針對其提供的運作狀態檢查介紹下列標籤。

節點運作狀態標籤

這些node-health-status標籤代表節點運作狀態的狀態,並將作為運作狀態節點中節點選取器篩選條件的一部分。

標籤 描述
sagemaker.amazonaws.com/node-health-status: Schedulable 節點已通過基本運作狀態檢查,並可用於執行中的工作負載。此運作狀態檢查與 Slurm 叢集 目前可用的 SageMaker HyperPod 復原功能相同。
sagemaker.amazonaws.com/node-health-status: Unschedulable 節點正在執行深層運作狀態檢查,不適用於執行中的工作負載。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement 節點未通過深層運作狀態檢查或運作狀態監控代理程式檢查,需要替換。如果啟用自動節點復原,節點將自動取代為 SageMaker HyperPod。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot 節點未通過深層運作狀態檢查或運作狀態監控代理程式檢查,並需要重新啟動。如果啟用自動節點復原,節點將由 自動重新啟動 SageMaker HyperPod。

深度運作狀態檢查標籤

這些deep-health-check-status標籤代表特定節點上深層運作狀態檢查的進度。有助於 Kubernetes 使用者快速篩選整體深層運作狀態檢查的進度。

標籤 描述
sagemaker.amazonaws.com/deep-health-check-status: InProgress 節點正在執行深層運作狀態檢查,不適用於執行中的工作負載。
sagemaker.amazonaws.com/deep-health-check-status: Passed 節點未通過深層運作狀態檢查或運作狀態監控代理程式檢查,需要替換。如果啟用自動節點復原,節點將自動取代為 SageMaker HyperPod。
sagemaker.amazonaws.com/deep-health-check-status: Failed 節點未通過深層運作狀態檢查或運作狀態監控代理程式檢查,並需要重新啟動或替換。如果啟用自動節點復原,節點將由 自動重新啟動 SageMaker HyperPod。

錯誤類型和原因標籤

落入描述 fault-typefault-reason標籤。

  • fault-type 當運作狀態檢查失敗時,標籤代表高階故障類別。這些會填入在深層運作狀態和運作狀態監控代理程式檢查期間發現的失敗。

  • fault-reason 標籤代表與 相關聯的詳細故障原因fault-type

SageMaker HyperPod 標籤如何

下列主題涵蓋如何根據各種案例完成標籤。

當節點新增至停用深層運作狀態檢查設定的 SageMaker HyperPod 叢集時

將新節點新增至叢集時,如果執行個體群組未啟用深層運作狀態檢查, 會 SageMaker HyperPod 執行與 Slurm 叢集目前可用運作狀態檢查相同的運作 SageMaker HyperPod 狀態檢查

如果運作狀態檢查通過,節點會以下列標籤標示。

sagemaker.amazonaws.com/node-health-status: Schedulable

如果運作狀態檢查未通過,節點將被終止並取代。此行為與 Slurm 叢集 SageMaker HyperPod 的運作方式相同。

當節點新增至已啟用深度運作狀態檢查設定的 SageMaker HyperPod 叢集時

將新節點新增至 SageMaker HyperPod 叢集時,如果為執行個體群組啟用深度運作狀態檢查測試,則 HyperPod 首先會污染節點,並在節點上啟動約 2 小時的深度運作狀態檢查/壓力測試。深層運作狀態檢查後,節點標籤有 3 個可能輸出。

  1. 當深層運作狀態檢查測試通過時

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. 當深層運作狀態檢查測試失敗,且需要取代執行個體時

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. 當深層運作狀態檢查測試失敗,且執行個體需要重新啟動才能重新執行深層運作狀態檢查時

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

如果執行個體未通過深層運作狀態檢查測試,執行個體一律會遭到取代。如果深層運作狀態檢查測試成功,節點上的污點將被移除。

當節點上有任何運算失敗時

SageMaker HyperPod 運作狀態監控代理程式也會持續監控每個節點的運作狀態。當它偵測到任何失敗 (例如GPU失敗和驅動程式當機) 時,代理程式會以下列其中一個標籤標記節點。

  1. 當節點運作狀態不佳且需要取代時

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. 當節點運作狀態不佳且需要重新啟動時

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

運作狀態監控代理程式在偵測到任何節點運作狀態問題時也會染色節點。