Amazon SageMaker 調試器見解儀表板 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker 調試器見解儀表板

有用於監控和分析偵錯工具控制器的不同元件。在本指南中,您將瞭解偵錯工具控制器元件。

注意

SageMaker 偵錯工具深入解析儀表板會在執行個ml.m5.4xlarge體上執行 Studio 典型應用程式,以處理和轉譯視覺效果。每個 SageMaker 偵錯工具見解索引標籤都會執行一個 Studio 傳統核心 在單一執行個體上執行多個 SageMaker 偵錯工具深入解析索引標籤的多個核心 當您關閉 SageMaker 偵錯工具見解索引標籤時,對應的核心工作階段也會關閉。Studio 經典版應用程式會維持作用中狀態,並會產生ml.m5.4xlarge執行個體使用費用。如需定價的相關資訊,請參閱 Amazon SageMaker 定價頁面。

重要

使用 SageMaker 偵錯工具見解儀表板完成後,請關閉ml.m5.4xlarge執行個體以避免產生費用。如需如何將執行個體關機的指示,請參閱關閉 Amazon SageMaker 偵錯工具見解執行個體

SageMaker 偵錯器見解控制器 UI

使用深入分析儀表板左上角的偵錯工具控制器,您可以重新整理儀表板、設定或更新偵錯工具設定以監控系統指標、停止訓練工作,以及下載偵錯工作分析報告。

SageMaker 偵錯工具見解儀表板
  • 如果您想要手動重新整理儀表板,請選擇重新整理按鈕 (左上角的圓形箭頭),如前面的螢幕擷取畫面所示。

  • 對於使用 SageMaker Python 啟動的任何 SageMaker 訓練工作,預設情況下,[監視] 切換按鈕是開啟的SDK。如果未啟用,可以使用切換按鈕開始監控。在監視期間,偵錯工具只會收集資源使用率指標,以偵測運算問題,例如CPU瓶頸和使用率不足。GPU如需偵錯工具監控之資源使用率問題的完整清單,請參閱偵錯工具內建規則,用於剖析硬體系統資源使用率 (系統度量)

  • 設定監控 按鈕會開啟快顯視窗,您可以使用該快顯視窗設定或更新資料收集頻率,以及儲存資料的 S3 路徑。

    設定偵錯工具監控組態的快顯視窗

    您可以指定下列欄位的值。

    • S3 儲存貯體 URI:指定基礎 S3 儲存貯體URI。

    • 收集監控資料,每隔:選取收集系統指標的時間間隔。您可以從下拉式清單中選取其中一個監控間隔。可用的間隔為 100 毫秒、200 毫秒、500 毫秒 (預設值)、1 秒、5 秒和 1 分鐘。

      注意

      如果您選擇較低的時間間隔之一,則會增加資源使用率指標的精細程度,以便您可以用較高的時間解析度擷取尖峰和異常狀況。但是,解析度越高,要處理的系統指標量就越大。這可能會導致額外的負荷,並影響總體的訓練和處理時間。

  • 使用停止訓練按鈕,您可以在發現資源使用率有異常狀況時停止訓練工作。

  • 使用 [下載報告] 按鈕,您可以使用 [ SageMaker 偵錯工具] 的內建ProfilerReport規則下載彙總的效能分析報告。當您將內建ProfilerReport規則新增至估算器時,會啟用此按鈕。如需詳細資訊,請參閱設定內建效能評測器規則使用 SageMaker 偵錯工具產生的效能分析報告