選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

儀表板

焦點模式
儀表板 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker HyperPod 任務控管提供 Amazon EKS 叢集使用率指標的完整儀表板檢視,包括硬體、團隊和任務指標。下列提供 HyperPod EKS 叢集儀表板的相關資訊。

儀表板提供叢集使用率指標的完整檢視,包括硬體、團隊和任務指標。您需要安裝 EKS 附加元件才能檢視儀表板。如需詳細資訊,請參閱儀表板設定

Amazon SageMaker AI 主控台HyperPod 叢集下,您可以導覽至 HyperPod 主控台,並檢視您所在區域的 HyperPod 叢集清單。選擇您的叢集並導覽至儀表板索引標籤。儀表板包含下列指標。您可以透過選擇對應的匯出來下載區段的資料。

使用率

為關鍵運算資源提供 EKS point-in-time和趨勢型指標的運作狀態。根據預設,會顯示所有執行個體群組。使用下拉式選單篩選執行個體群組。本節中包含的指標為:

  • 總計、執行中和待定復原執行個體的數量。待定復原執行個體的數量是指需要注意才能復原的執行個體數量。

  • GPUs、GPU 記憶體、vCPUs和 vCPUs記憶體。

  • GPU 使用率、GPU 記憶體使用率、vCPU 使用率和 vCPU 記憶體使用率。

  • GPU 和 vCPU 使用率的互動式圖形。

團隊

提供團隊特定資源管理的資訊。其中包含:

  • 執行個體和 GPU 配置。

  • GPU 使用率。

  • 借用 GPU 統計資料。

  • 任務狀態 (執行中或待定)。

  • GPU 使用率與跨團隊運算配置的長條圖檢視。

  • 團隊詳細的 GPU 和 vCPU 相關資訊。根據預設,顯示的資訊會包含所有團隊。您可以選擇下拉式選單,依團隊和執行個體進行篩選。在互動式圖表中,您可以依時間篩選。

工作

注意

若要在儀表板中檢視 HyperPod EKS 叢集任務:

  • 在指定的 HyperPod 命名空間中為資料科學家使用者設定 Kubernetes 角色型存取控制 (RBAC),以授權 Amazon EKS 協調叢集上的任務執行。命名空間遵循格式 hyperpod-ns-team-name。若要建立 RBAC 許可,請參閱團隊角色建立說明

  • 確保您的任務已提交適當的命名空間和優先順序類別標籤。如需完整範例,請參閱 將任務提交至 SageMaker AI 受管佇列和命名空間

提供有關任務相關指標的資訊。這包括執行中、待定和先佔的任務數量,以及執行和等待時間統計資料。根據預設,顯示的資訊包含所有團隊。您可以選擇下拉式選單,依團隊篩選。在互動式圖表中,您可以依時間篩選。

下一個主題:

任務

上一個主題:

任務控管設定
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。