復原相關的 Kubernetes 標籤的依據 SageMaker HyperPod - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

復原相關的 Kubernetes 標籤的依據 SageMaker HyperPod

標示是貼附至 Kubernetes 物件的索引鍵值配對。 SageMaker HyperPod 為其提供的健康檢查介紹了以下標籤。

節點健康狀態標籤

這些標node-health-status籤代表節點健康狀況的狀態,並用作健全節點中節點選擇器篩選器的一部分。

標籤 描述
sagemaker.amazonaws.com/node-health-status: Schedulable 節點已通過基本健康狀態檢查,可用於執行工作負載。此健康狀態檢查與 S lurm 叢集目前可用的 SageMaker HyperPod 恢復功能相同。
sagemaker.amazonaws.com/node-health-status: Unschedulable 節點正在執行深度健康狀態檢查,無法用於執行中的工作負載。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement 節點未通過深度健全狀況檢查或健康監視代理程式檢查,因此需要更換。如果啟用了自動節點復原,節點將自動取代為 SageMaker HyperPod。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot 節點未通過深度健全狀況檢查或健康監視代理程式檢查,需要重新開機。如果啟用了自動節點復原,節點將由自動重新開機 SageMaker HyperPod。

深, 健康檢查, 標籤

這些標deep-health-check-status籤代表在特定節點上進行深度健康狀態檢查的進度。有助於 Kubernetes 使用者快速篩選整體深度健康狀態檢查的進度。

標籤 描述
sagemaker.amazonaws.com/deep-health-check-status: InProgress 節點正在執行深度健康狀態檢查,無法用於執行中的工作負載。
sagemaker.amazonaws.com/deep-health-check-status: Passed 節點未通過深度健全狀況檢查或健康監視代理程式檢查,因此需要更換。如果啟用了自動節點復原,節點將自動取代為 SageMaker HyperPod。
sagemaker.amazonaws.com/deep-health-check-status: Failed 節點未通過深度健全狀況檢查或健康監視代理程式檢查,因此需要重新開機或更換。如果啟用了自動節點復原,節點將由自動重新開機 SageMaker HyperPod。

故障類型和原因標籤

拖移描述了fault-type和標fault-reason籤。

  • fault-type當健康狀態檢查失敗時,標示代表高階錯誤類別 在深度健康狀況和健康監視代理程式檢查期間識別的失敗,都會填入這些項目。

  • fault-reason標籤表示與相關聯的詳細錯誤原因fault-type

如何 SageMaker HyperPod 標籤

下列主題說明如何根據各種情況進行標籤。

將節點新增至已停用深度健全狀況檢查設定的 SageMaker HyperPod 叢集時

新節點新增至叢集時,如果執 SageMaker HyperPod 行個體群組未啟用深度健全狀況檢查,則執行與 Slurm 叢集目前可用的 SageMaker HyperPod 健康狀態檢查相同。

如果健全狀況檢查通過,節點將會標示下列標籤。

sagemaker.amazonaws.com/node-health-status: Schedulable

如果健全狀況檢查未通過,則會終止並取代節點。此行為與 Slurm 叢集 SageMaker HyperPod 健康狀態檢查的運作方式相同。

將節點新增至已啟用深度健康狀態檢查配置的 SageMaker HyperPod 叢集時

將新節點新增至 SageMaker HyperPod 叢集時,如果針對執行個體群組啟用了深度健全狀況檢查測試,則會 HyperPod 先清除該節點,然後在節點上啟動約 2 小時的深度健康狀態檢查/stress 測試。進行深度健康狀態檢查後,節點標籤有 3 個可能輸出。

  1. 當深度健康檢查測試通過

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. 當深度健康狀態檢查測試失敗時,需要更換執行個體

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. 當深度健康狀態檢查測試失敗時,執行個體需要重新啟動才能重新執行深度健康狀態檢查

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

如果執行個體未通過深度健康狀態檢查測試,則執行個體一律會被取代。如果深度健康狀態檢查測試成功,則會移除節點上的污點。

節點上發生任何運算失敗時

SageMaker HyperPod 健全狀況監視器代理程式也會持續監控每個節點的健全狀況狀態。當它偵測到任何故障 (例如失GPU敗和驅動程式損毀) 時,代理程式會以下列其中一個標籤來標記節點。

  1. 節點運作狀況不佳且需要更換時

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. 當節點運作狀態不佳且需要重新啟動

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

健全狀況監視器代理程式也會在偵測到任何節點健全狀況問題時污染節點。