翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
トレーニングジョブのモニタリングと分析を行うための Amazon CloudWatch メトリクス
Amazon SageMaker トレーニングジョブは、トレーニングデータセットの例を提示することで、モデルに予測することを学習させる反復プロセスです。通常、トレーニングアルゴリズムは、トレーニングエラーや予測精度など、複数のメトリクスを計算します。これらのメトリクスは、モデルがうまく学習しているかどうかと、見えないデータについて予測を行うためにうまく一般化されるかどうかを診断するのに役立ちます。トレーニングアルゴリズムは、これらのメトリクスの値をログに書き込みます。ログは、SageMaker AI がモニタリングし、Amazon CloudWatch にリアルタイムで送信します。トレーニングジョブのパフォーマンスを分析するため、CloudWatch でこれらのメトリクスのグラフを表示できます。トレーニングジョブが完了すると、DescribeTrainingJob
演算子を呼び出すことで最終的な反復作業で計算されるメトリクス値のリストを取得することもできます。
注記
Amazon CloudWatch は、高分解能カスタムメトリクスをサポートし、その最高分解能は 1 秒です。ただし、分解能が細かいほど、CloudWatch メトリクスの寿命は短くなります。1 秒の頻度の分解能の場合は、CloudWatch メトリックスを使用できるのは 3 時間です。CloudWatch メトリクスの分解能と寿命の詳細については、「Amazon CloudWatch API リファレンス」の「GetMetricStatistics」を参照してください。
ヒント
100 ミリ秒 (0.1 秒) の粒度まで細かい分解能でトレーニングジョブをプロファイリングし、トレーニングメトリクスをカスタム分析のためにいつでも無期限に Amazon S3 に保存する必要がある場合は、Amazon SageMaker デバッガーの使用を検討してください。SageMaker デバッガーには、一般的なトレーニングの問題を自動的に検出するルールが組み込まれており、ハードウェアリソース使用率の問題 (CPU、GPU、I/O のボトルネックなど) および非収束モデルの問題 (オーバーフィット、勾配消失、テンソルの爆発など) を検出します。SageMaker Debugger は、Studio Classic とそのプロファイリングレポートを通じて可視化機能も提供します。デバッガーの可視化機能を確認するには、「SageMaker デバッガーインサイトダッシュボードのチュートリアル」、「デバッガープロファイリングレポートのチュートリアル」、「SMDebug クライアントライブラリを使用してデータを分析する」を参照してください。