Amazon SageMaker Studio Classic で AWS コンピューティングリソースの使用率を監視する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker Studio Classic で AWS コンピューティングリソースの使用率を監視する

トレーニングジョブのコンピューティングリソース使用率を追跡するには、Amazon SageMaker Debugger が提供するモニタリングツールを使用します。

SageMaker Python SDK SageMaker を使用して で実行するトレーニングジョブの場合、デバッガーは CPU 使用率、GPU 使用率、GPU メモリ使用率、ネットワーク、I/O 待機時間などの基本的なリソース使用率メトリクスを 500 ミリ秒ごとに収集します。トレーニングジョブのリソース使用率メトリクスのダッシュボードを表示するには、SageMaker SageMaker Studio Experiments でデバッガー UI を使用するだけです。

深層学習オペレーションとステップはミリ秒間隔で実行される場合があります。1 秒間隔でメトリクスを収集する Amazon CloudWatch メトリクスと比較すると、デバッガーは 100 ミリ秒 (0.1 秒) 間隔までのリソース使用率メトリクスをより詳細に把握できるため、オペレーションまたはステップのレベルでメトリクスを詳しく調べることができます。

メトリクスの収集間隔を変更したい場合は、トレーニングジョブランチャーにプロファイリング設定のパラメータを追加できます。例えば、Python SDK を使用している場合 SageMakerは、推定器オブジェクトを作成するときに profiler_configパラメータを渡す必要があります。リソース使用率メトリクスの収集間隔を調整する方法については、「Python で SageMaker デバッガー Python モジュール SageMakerを使用して SageMaker 推定器オブジェクトを設定するためのコードテンプレート SDK」および「システムリソース使用率の基本的なプロファイリング設定を行う」を参照してください。

さらに、 SageMaker デバッガーによって提供される組み込みプロファイリングルールと呼ばれる問題検出ツールを追加できます。組み込みのプロファイリングルールは、リソース使用率メトリクスに照らして分析を行い、計算パフォーマンスの問題を検出します。詳細については、「Amazon SageMaker Debugger によって管理される組み込みプロファイラルールを使用する」を参照してください。ルール分析の結果は、SageMaker SageMaker Studio Experiments のデバッガー UI SageMaker またはデバッガープロファイリングレポート から受け取ることができます。 SageMaker Python SDK を使用してカスタムプロファイリングルールを作成することもできます。

SageMaker デバッガーが提供するモニタリング機能の詳細については、以下のトピックを参照してください。