Amazon SageMaker Debugger - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker Debugger

即時偵錯機器學習訓練任務的模型輸出張量,並使用 Amazon SageMaker Debugger 偵測非收斂問題。

Amazon SageMaker Debugger 功能

機器學習 (ML) 訓練任務可能會遇到諸如過度擬合、飽和啟動函式和梯度消失等問題,這可能會洩露模型效能。

SageMaker Debugger 提供可偵錯訓練任務並解決此類問題的工具,改善模型的效能。發現訓練異常狀況時,Debugger 也提供傳送提醒的工具,針對問題採取行動,並透過視覺化收集的指標和張量來識別其根本原因。

SageMaker Debugger 支援 Apache MXNet、PyTorch、TensorFlow 和 XGBoost 架構。如需 SageMaker Debugger 所支援之可用架構和版本的詳細資訊,請參閱支援的架構和演算法

Amazon SageMaker Debugger 的運作方式概觀。

高階 Debugger 工作流程如下所示:

  1. 如有需要,請使用 sagemaker-debugger Python SDK 修改您的訓練指令碼。

  2. 使用 SageMaker Debugger 設定 SageMaker 訓練任務。

  3. 開啟訓練任務並即時監控訓練問題。

  4. 收到提醒並針對訓練問題立即採取行動。

  5. 探索訓練問題的深度分析。

  6. 修正問題、考慮 Debugger 所提供的建議,然後重複步驟 1-5,直到您最佳化模型並達到目標準確度為止。

SageMaker Debugger 開發人員指南會逐步引導您完成下列主題。