Amazon SageMaker 調試器架 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker 調試器架

本主題將引導您完成 Amazon SageMaker 偵錯工作流程的高階概觀。

Debugger 支援效能最佳化的分析功能,識別諸如系統瓶頸和使用量過低等運算問題,並協助大規模最佳化硬體資源使用率。

Debugger 模型最佳化的偵錯功能涉及分析可能出現的非收斂訓練問題,同時使用諸如梯度下降及其變化等最佳化演算法,以最小化損耗函數。

下圖顯示了 SageMaker 調試器的體系結構。具有粗邊界的區塊即為 Debugger 管理來分析訓練任務的區塊。

Amazon SageMaker 調試器如何工作的概述。

Debugger 會將訓練任務的下列資料存放在安全的 Amazon S3 儲存貯體中:

  • 輸出張量——訓練 ML 模型時,在向前和向後傳遞期間持續更新純量和模型參數的集合。輸出張量包含純量值(準確度和損失)和矩陣(權重、梯度、輸入層和輸出層)。

    注意

    根據預設,偵錯工具會監視和偵錯 SageMaker 訓練工作,而不需要在估計器中設定任何除錯器特定參數。 SageMaker Debugger 每 500 毫秒收集一次系統指標,並且每 500 個步驟收集一次基本輸出張量(諸如損失和準確度等純量輸出)。它也執行 ProfilerReport 規則來分析系統指標,並彙總 Studio Debugger 深入分析儀表板和分析報告。Debugger 會將輸出資料儲存在安全的 Amazon S3 儲存貯體。

調試器內置規則運行在處理容器上,這些容器旨在通過處理 S3 存儲桶中收集的訓練數據來評估機器學習模型(請參閱過程數據和評估模型)。Debugger 會完全管理內建規則。您也可以建立自己的自訂模型規則,以監看您想要監控的任何問題。