翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
トレーニングジョブのモニタリングと分析のための Amazon CloudWatch メトリクス
Amazon SageMaker トレーニングジョブは、トレーニングデータセットから例を提示することで予測を行うようにモデルに指示する反復プロセスです。通常、トレーニングアルゴリズムは、トレーニングエラーや予測精度など、複数のメトリクスを計算します。これらのメトリクスは、モデルがうまく学習しているかどうかと、見えないデータについて予測を行うためにうまく一般化されるかどうかを診断するのに役立ちます。トレーニングアルゴリズムは、これらのメトリクスの値をログに書き込み、ログは CloudWatch リアルタイムで SageMaker モニタリングして Amazon に送信します。トレーニングジョブのパフォーマンスを分析するには、これらのメトリクスのグラフを で表示できます CloudWatch。トレーニングジョブが完了すると、DescribeTrainingJob
演算子を呼び出すことで最終的な反復作業で計算されるメトリクス値のリストを取得することもできます。
注記
Amazon は高解像度のカスタムメトリクス CloudWatch をサポートしており、その最高の解像度は 1 秒です。ただし、解像度が細くなるほど、 CloudWatch メトリクスの有効期間が短くなります。1 秒の周波数解決では、 CloudWatch メトリクスは 3 時間使用できます。 CloudWatch メトリクスの解像度と有効期間の詳細については、GetMetricStatistics「Amazon CloudWatch API リファレンス」の「」を参照してください。
ヒント
100 ミリ秒 (0.1 秒) のきめ細かな解像度でトレーニングジョブをプロファイリングし、カスタム分析のためにトレーニングメトリクスを Amazon S3 に無期限に保存する場合は、Amazon SageMaker Debugger の使用を検討してください。 SageMaker Debugger は、一般的なトレーニング問題を自動的に検出するための組み込みルールを提供します。ハードウェアリソースの使用率の問題 (CPU、GPU、I/O ボトルネックなど) と非収束モデルの問題 (オーバーフィット、勾配の消失、テンソルの爆発など) を検出します。 SageMaker デバッガーは、Studio Classic とそのプロファイリングレポートによる視覚化も提供します。デバッガーの視覚化については、SageMaker 「Debugger Insights Dashboard Walkthrough 」、「Debugger Profiling Report Walkthrough 」、およびSMDebug「 クライアントライブラリ を使用したデータの分析」を参照してください。