本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker 調試器見解儀表板
有用於監控和分析偵錯工具控制器的不同元件。在本指南中,您將瞭解偵錯工具控制器元件。
注意
SageMaker 偵錯工具深入解析儀表板會在執行個ml.m5.4xlarge
體上執行 Studio 典型應用程式,以處理和轉譯視覺效果。每個 SageMaker 偵錯工具見解索引標籤都會執行一個 Studio 傳統核心 在單一執行個體上執行多個 SageMaker 偵錯工具深入解析索引標籤的多個核心 當您關閉 SageMaker 偵錯工具見解索引標籤時,對應的核心工作階段也會關閉。Studio 經典版應用程式會維持作用中狀態,並會產生ml.m5.4xlarge
執行個體使用費用。如需定價的相關資訊,請參閱 Amazon SageMaker 定價
重要
使用 SageMaker 偵錯工具見解儀表板完成後,請關閉ml.m5.4xlarge
執行個體以避免產生費用。如需如何將執行個體關機的指示,請參閱關閉 Amazon SageMaker 偵錯工具見解執行個體。
SageMaker 偵錯器見解控制器 UI
使用深入分析儀表板左上角的偵錯工具控制器,您可以重新整理儀表板、設定或更新偵錯工具設定以監控系統指標、停止訓練工作,以及下載偵錯工作分析報告。
-
如果您想要手動重新整理儀表板,請選擇重新整理按鈕 (左上角的圓形箭頭),如前面的螢幕擷取畫面所示。
-
對於使用 SageMaker Python 啟動的任何 SageMaker 訓練工作,預設情況下,[監視] 切換按鈕是開啟的SDK。如果未啟用,可以使用切換按鈕開始監控。在監視期間,偵錯工具只會收集資源使用率指標,以偵測運算問題,例如CPU瓶頸和使用率不足。GPU如需偵錯工具監控之資源使用率問題的完整清單,請參閱偵錯工具內建規則,用於剖析硬體系統資源使用率 (系統度量)。
-
設定監控 按鈕會開啟快顯視窗,您可以使用該快顯視窗設定或更新資料收集頻率,以及儲存資料的 S3 路徑。
您可以指定下列欄位的值。
-
S3 儲存貯體 URI:指定基礎 S3 儲存貯體URI。
-
收集監控資料,每隔:選取收集系統指標的時間間隔。您可以從下拉式清單中選取其中一個監控間隔。可用的間隔為 100 毫秒、200 毫秒、500 毫秒 (預設值)、1 秒、5 秒和 1 分鐘。
注意
如果您選擇較低的時間間隔之一,則會增加資源使用率指標的精細程度,以便您可以用較高的時間解析度擷取尖峰和異常狀況。但是,解析度越高,要處理的系統指標量就越大。這可能會導致額外的負荷,並影響總體的訓練和處理時間。
-
-
使用停止訓練按鈕,您可以在發現資源使用率有異常狀況時停止訓練工作。
-
使用 [下載報告] 按鈕,您可以使用 [ SageMaker 偵錯工具] 的內建ProfilerReport規則下載彙總的效能分析報告。當您將內建ProfilerReport規則新增至估算器時,會啟用此按鈕。如需詳細資訊,請參閱設定內建效能評測器規則和使用 SageMaker 偵錯工具產生的效能分析報告