本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker HyperPod 任務控管提供 Amazon EKS 叢集使用率指標的完整儀表板檢視,包括硬體、團隊和任務指標。下列提供 HyperPod EKS 叢集儀表板的相關資訊。
儀表板提供叢集使用率指標的完整檢視,包括硬體、團隊和任務指標。您需要安裝 EKS 附加元件才能檢視儀表板。如需詳細資訊,請參閱儀表板設定。
在 Amazon SageMaker AI 主控台
使用率
為關鍵運算資源提供 EKS point-in-time和趨勢型指標的運作狀態。根據預設,會顯示所有執行個體群組。使用下拉式選單篩選執行個體群組。本節中包含的指標為:
-
總計、執行中和待定復原執行個體的數量。待定復原執行個體的數量是指需要注意才能復原的執行個體數量。
-
GPUs、GPU 記憶體、vCPUs和 vCPUs記憶體。
-
GPU 使用率、GPU 記憶體使用率、vCPU 使用率和 vCPU 記憶體使用率。
-
GPU 和 vCPU 使用率的互動式圖形。
團隊
提供團隊特定資源管理的資訊。其中包含:
-
執行個體和 GPU 配置。
-
GPU 使用率。
-
借用 GPU 統計資料。
-
任務狀態 (執行中或待定)。
-
GPU 使用率與跨團隊運算配置的長條圖檢視。
-
團隊詳細的 GPU 和 vCPU 相關資訊。根據預設,顯示的資訊會包含所有團隊。您可以選擇下拉式選單,依團隊和執行個體進行篩選。在互動式圖表中,您可以依時間篩選。
工作
注意
若要在儀表板中檢視 HyperPod EKS 叢集任務:
-
在指定的 HyperPod 命名空間中為資料科學家使用者設定 Kubernetes 角色型存取控制 (RBAC),以授權 Amazon EKS 協調叢集上的任務執行。命名空間遵循格式
hyperpod-ns-
。若要建立 RBAC 許可,請參閱團隊角色建立說明team-name
。 -
確保您的任務已提交適當的命名空間和優先順序類別標籤。如需完整範例,請參閱 將任務提交至 SageMaker AI 受管佇列和命名空間。
提供有關任務相關指標的資訊。這包括執行中、待定和先佔的任務數量,以及執行和等待時間統計資料。根據預設,顯示的資訊包含所有團隊。您可以選擇下拉式選單,依團隊篩選。在互動式圖表中,您可以依時間篩選。