翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon SageMaker デバッガー
機械学習トレーニングジョブからモデル出力テンソルをリアルタイムでデバッグし、Amazon SageMaker Debugger を使用して非収束の問題を検出します。
Amazon SageMaker Debugger の機能
機械学習 (ML) トレーニングジョブには、オーバーフィット、活性化関数の飽和、勾配の消失などの問題が発生し、モデルのパフォーマンスを低下させる場合があります。
SageMaker デバッガーは、トレーニングジョブをデバッグし、モデルのパフォーマンスを向上させるためにこのような問題を解決するためのツールを提供します。Debugger は、トレーニングの異常が見つかったときにアラートを送信し、問題に対してアクションを取り、収集したメトリクスとテンソルを視覚化することで問題の根本原因を特定するツールも提供します。
SageMaker デバッガーは、Apache MXNet、 PyTorch TensorFlow、および XGBoostフレームワークをサポートしています。 SageMaker デバッガーでサポートされている使用可能なフレームワークとバージョンの詳細については、「」を参照してくださいサポートされているフレームワークとアルゴリズム。
デバッガーのワークフローの概要は次のとおりです。
-
必要に応じて、Python
sagemaker-debugger
を使用してトレーニングスクリプトを変更しますSDK。 -
SageMaker デバッガーを使用して SageMaker トレーニングジョブを設定します。
-
SageMaker Estimator API (Python 用) を使用して を設定しますSDK。
-
SageMaker
CreateTrainingJob
リクエスト (Boto3 または の場合CLI) を使用して を設定します。 -
SageMaker デバッガーを使用してカスタムトレーニングコンテナを設定します。
-
-
トレーニングジョブを開始し、トレーニングの問題をリアルタイムにモニタリングします。
-
アラートを受け取り、トレーニングの問題に対して迅速なアクションを取ります。
-
ルールにデバッガー組み込みアクションを使用する を使ってトレーニングの問題が見つかった場合は、テキストとメールを受け取り、トレーニングジョブを停止する。
-
Amazon CloudWatch Events と AWS Lambdaを使用して独自のアクションを設定します。
-
-
トレーニングの問題の詳細な分析を調べます。
-
モデル出力テンソルのデバッグについては、「でのデバッガー出力テンソルの視覚化 TensorBoard」を参照してください。
-
-
Debugger が示す提案を考慮しながら問題を修正し、モデルを最適化して目標精度を達成するまでステップ 1~5 を繰り返します。
SageMaker デバッガーデベロッパーガイドでは、以下のトピックについて説明します。