使用 Amazon SageMaker 偵錯工具偵錯並改善模型效能 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Amazon SageMaker 偵錯工具偵錯並改善模型效能

從機器學習訓練任務即時偵錯模型輸出張量,並使用 Amazon Debug 偵測非融合問題。 SageMaker

Amazon SageMaker 調試功能

機器學習 (ML) 訓練任務可能會遇到諸如過度擬合、飽和啟動函數和梯度消失等問題,這可能會洩露模型效能。

SageMaker 偵錯工具提供的工具可偵錯訓練工作,並解決此類問題,以改善模型的效能。發現訓練異常狀況時,Debugger 也提供傳送提醒的工具,針對問題採取行動,並透過視覺化收集的指標和張量來識別其根本原因。

SageMaker 除錯器支援阿帕奇 MXNet、 PyTorch TensorFlow、和 XGBoost 架構。如需有關 SageMaker 除錯程式支援的可用架構和版本的詳細資訊,請參閱支援的架構和演算法

Amazon SageMaker 調試器如何工作的概述。

高階 Debugger 工作流程如下所示:

  1. 如有需要,請使用 sagemaker-debugger Python SDK 修改您的訓練指令碼。

  2. 使用 SageMaker 偵錯工具設定 SageMaker 訓練工作。

  3. 開啟訓練任務並即時監控訓練問題。

  4. 收到提醒並針對訓練問題立即採取行動。

  5. 探索訓練問題的深度分析。

  6. 修正問題、考慮 Debugger 所提供的建議,然後重複步驟 1-5,直到您最佳化模型並達到目標準確度為止。

SageMaker 偵錯工具開發人員指南會逐步引導您完成下列主題。