本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
探索 Amazon SageMaker 偵錯工具見解儀表板
當您啟動 SageMaker 訓練任務時, SageMaker 偵錯工具預設會開始監控 Amazon EC2 執行個體的資源使用率。您可以透過深入分析儀表板追蹤系統使用率、統計資料概觀和內建規則分析。本指南將引導您逐步瞭解下列索引標籤下的「 SageMaker 偵錯工具見解」儀表板的內容:系統度量和規則。
注意
SageMaker 偵錯工具深入解析儀表板會在執行個ml.m5.4xlarge
體上執行 Studio 典型應用程式,以處理和轉譯視覺效果。每個 SageMaker 偵錯工具見解索引標籤都會執行一個 Studio 傳統核心 在單一執行個體上執行多個 SageMaker 偵錯工具深入解析索引標籤的多個核心 當您關閉 SageMaker 偵錯工具見解索引標籤時,對應的核心工作階段也會關閉。Studio 典型應用程式會維持作用中狀態,並會產生ml.m5.4xlarge
執行個體使用費用。如需定價的相關資訊,請參閱 Amazon SageMaker 定價
重要
使用 SageMaker 偵錯工具見解儀表板完成後,請關閉ml.m5.4xlarge
執行個體以避免產生費用。如需如何將執行個體關機的指示,請參閱關閉 Amazon SageMaker 偵錯工具見解執行個體。
重要
在報告中,系統會提供資訊圖表和相關建議,其中的內容並非絕對。由您負責對當中的資訊進行自己的獨立評估。
系統指標
在系統指標標籤內,您可以透過總結表格與時間序列圖表來瞭解資源使用率。
資源使用率總結
此總結表格顯示所有節點的運算資源使用率指標統計資料 (表示為 algo-n)。資源使用率測量結果包括總CPU使用率、總GPU使用率、總CPU記憶體使用率、總GPU記憶體使用率、總 I/O 等待時間,以及總網路 (位元組)。該表顯示了最小值和最大值,以及 p99,p90 和 p50 百分位數。
資源使用率時間序列圖
您可以使用時間序列圖表來查看資源使用率的詳細資訊,並識別每個執行處理顯示任何不需要的使用率 (例如低使用GPU率和可能造成昂貴執行個體浪費的CPU瓶頸)。
時間序列圖形控制器使用者介面
下列螢幕擷取畫面顯示用於調整時間序列圖表的使用者介面控制器。
-
algo-1:請使用此下拉式清單選擇您要查看的節點。
-
放大:請使用此按鈕放大時間序列圖表,並檢視較短的時間間隔。
-
縮小:請使用此按鈕縮小時間序列圖表,並檢視更大的時間間隔。
-
向左移動:將時間序列圖表移至較早的時間間隔。
-
向右移動:將時間序列圖表移至較晚的時間間隔。
-
修正時間範圍:使用此核取方塊可修正或復原時間序列圖表,以顯示從第一個資料點到最後一個資料點的完整檢視。
CPU使用率和 I/O 等待時間
前兩個圖表顯示一段時間內的CPU使用率和 I/O 等待時間。根據預設,這些圖形會顯示CPU使用率的平均值,以及花在CPU核心上的 I/O 等待時間。您可以選取一或多個CPU核心,方法是選取標籤,以便在單一圖表上繪製圖形,並比較不同核心的使用率。您可以拖曳並放大、縮小以仔細查看特定的時間間隔。
GPU使用率和GPU內存利用率
下圖顯示一段時間內的GPU使用率和GPU記憶體使用率。依預設值,圖表會顯示一段時間內的平均使用率。您可以選取GPU核心標籤以查看每個核心的使用率。將使用率平均值超過GPU核心總數,顯示整個硬體系統資源的平均使用率。透過查看平均使用率,您可以檢查 Amazon EC2 執行個體的整體系統資源使用情況。下圖顯示具有 8 個GPU核心的執行個ml.p3.16xlarge
體訓練工作範例。您可以監視培訓工作是否分佈良好,充分利用所有GPUs。
一段時間的總體系統使用率
下列熱度圖顯示 ml.p3.16xlarge
執行個體在一段時間內的整體系統使用率範例,投影到二維圖上。「每個CPU和GPU芯」列在垂直軸上,並且使用配色方案記錄使用率,其中明亮的顏色代表低利用率,而較暗的顏色代表高利用率。請參閱圖右側帶標籤的顏色條,以深入了解哪個顏色級別與哪個使用率相對應。
規則
使用規則標籤可找出您的訓練工作的分析規則分析總結。如果訓練工作啟動時具有分析規則,文字會以純白色文字強調顯示。非作用中規則會以灰色文字暗化。若要啟動這些規則,請依照使用 Amazon SageMaker Debugger 管理的內建分析器規則中的指示。