探索 Amazon SageMaker 偵錯工具見解儀表板 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

探索 Amazon SageMaker 偵錯工具見解儀表板

當您啟動 SageMaker 訓練任務時, SageMaker 偵錯工具預設會開始監控 Amazon EC2 執行個體的資源使用率。您可以透過深入分析儀表板追蹤系統使用率、統計資料概觀和內建規則分析。本指南將引導您逐步瞭解下列索引標籤下的「 SageMaker 偵錯工具見解」儀表板的內容:系統度量規則

注意

SageMaker 偵錯工具深入解析儀表板會在執行個ml.m5.4xlarge體上執行 Studio 典型應用程式,以處理和轉譯視覺效果。每個 SageMaker 偵錯工具見解索引標籤都會執行一個 Studio 傳統核心 在單一執行個體上執行多個 SageMaker 偵錯工具深入解析索引標籤的多個核心 當您關閉 SageMaker 偵錯工具見解索引標籤時,對應的核心工作階段也會關閉。Studio 典型應用程式會維持作用中狀態,並會產生ml.m5.4xlarge執行個體使用費用。如需定價的相關資訊,請參閱 Amazon SageMaker 定價頁面。

重要

使用 SageMaker 偵錯工具見解儀表板完成後,請關閉ml.m5.4xlarge執行個體以避免產生費用。如需如何將執行個體關機的指示,請參閱關閉 Amazon SageMaker 偵錯工具見解執行個體

重要

在報告中,系統會提供資訊圖表和相關建議,其中的內容並非絕對。由您負責對當中的資訊進行自己的獨立評估。

系統指標

系統指標標籤內,您可以透過總結表格與時間序列圖表來瞭解資源使用率。

資源使用率總結

此總結表格顯示所有節點的運算資源使用率指標統計資料 (表示為 algo-n)。資源使用率測量結果包括總CPU使用率、總GPU使用率、總CPU記憶體使用率、總GPU記憶體使用率、總 I/O 等待時間,以及總網路 (位元組)。該表顯示了最小值和最大值,以及 p99,p90 和 p50 百分位數。

資源使用率總結資料表

資源使用率時間序列圖

您可以使用時間序列圖表來查看資源使用率的詳細資訊,並識別每個執行處理顯示任何不需要的使用率 (例如低使用GPU率和可能造成昂貴執行個體浪費的CPU瓶頸)。

時間序列圖形控制器使用者介面

下列螢幕擷取畫面顯示用於調整時間序列圖表的使用者介面控制器。

SageMaker 偵錯工具見解儀表板中的 UI 控制器。
  • algo-1:請使用此下拉式清單選擇您要查看的節點。

  • 放大:請使用此按鈕放大時間序列圖表,並檢視較短的時間間隔。

  • 縮小:請使用此按鈕縮小時間序列圖表,並檢視更大的時間間隔。

  • 向左移動:將時間序列圖表移至較早的時間間隔。

  • 向右移動:將時間序列圖表移至較晚的時間間隔。

  • 修正時間範圍:使用此核取方塊可修正或復原時間序列圖表,以顯示從第一個資料點到最後一個資料點的完整檢視。

CPU使用率和 I/O 等待時間

前兩個圖表顯示一段時間內的CPU使用率和 I/O 等待時間。根據預設,這些圖形會顯示CPU使用率的平均值,以及花在CPU核心上的 I/O 等待時間。您可以選取一或多個CPU核心,方法是選取標籤,以便在單一圖表上繪製圖形,並比較不同核心的使用率。您可以拖曳並放大、縮小以仔細查看特定的時間間隔。

debugger-studio-insight-mockup

GPU使用率和GPU內存利用率

下圖顯示一段時間內的GPU使用率和GPU記憶體使用率。依預設值,圖表會顯示一段時間內的平均使用率。您可以選取GPU核心標籤以查看每個核心的使用率。將使用率平均值超過GPU核心總數,顯示整個硬體系統資源的平均使用率。透過查看平均使用率,您可以檢查 Amazon EC2 執行個體的整體系統資源使用情況。下圖顯示具有 8 個GPU核心的執行個ml.p3.16xlarge體訓練工作範例。您可以監視培訓工作是否分佈良好,充分利用所有GPUs。

debugger-studio-insight-mockup

一段時間的總體系統使用率

下列熱度圖顯示 ml.p3.16xlarge 執行個體在一段時間內的整體系統使用率範例,投影到二維圖上。「每個CPU和GPU芯」列在垂直軸上,並且使用配色方案記錄使用率,其中明亮的顏色代表低利用率,而較暗的顏色代表高利用率。請參閱圖右側帶標籤的顏色條,以深入了解哪個顏色級別與哪個使用率相對應。

debugger-studio-insight-mockup

規則

使用規則標籤可找出您的訓練工作的分析規則分析總結。如果訓練工作啟動時具有分析規則,文字會以純白色文字強調顯示。非作用中規則會以灰色文字暗化。若要啟動這些規則,請依照使用 Amazon SageMaker Debugger 管理的內建分析器規則中的指示。

SageMaker 偵錯工具見解儀表板中的規則索引標籤