Amazon SageMaker Debugger Insights ダッシュボードコントローラー - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker Debugger Insights ダッシュボードコントローラー

Debugger のコントローラーには、モニタリングやプロファイリングのためのさまざまなコンポーネントがあります。このガイドでは、デバッガーコントローラーコンポーネントについて説明します。

注記

SageMaker Debugger Insights ダッシュボードは、ml.m5.4xlarge インスタンス上で Studio Classic アプリケーションを実行し、可視化データを処理してレンダリングします。各 [SageMaker Debugger Insights] タブは、1 つの Studio Classic カーネルセッションを実行します。複数の [SageMaker Debugger Insights] タブに対する複数のカーネルセッションが 1 つのインスタンスで実行されます。[SageMaker Debugger Insights] タブを閉じると、対応するカーネルセッションも閉じられます。Studio Classic アプリケーションはアクティブな状態を維持し、その分の ml.m5.4xlarge インスタンスの使用料が発生します。料金の詳細については、Amazon SageMaker AI 料金ページを参照してください。

重要

SageMaker Debugger Insights ダッシュボードの使用が終了したら、料金が発生しないように ml.m5.4xlarge インスタンスをシャットダウンします。インスタンスをシャットダウンする方法については、「Amazon SageMaker Debugger Insights インスタンスをシャットダウンする」を参照してください。

SageMaker Debugger Insights コントローラー UI

インサイトダッシュボードの左上隅にあるデバッガーコントローラーを使って、ダッシュボードの更新、システムメトリクスのモニタリングするためのデバッガー設定を構成または更新、トレーニングジョブの停止、デバッガープロファイリングレポートのダウンロードを行うことができます。

SageMaker デバッガーインサイトダッシュボードコントローラー
  • ダッシュボードを手動で更新する場合は、前のスクリーンショットに示すように、[更新] ボタン (左上隅の丸い矢印) を選択します。

  • SageMaker Python SDK を使用して開始されたすべての SageMaker トレーニングジョブでは、[モニタリング] トグルボタンがデフォルトでオンになっています。有効になっていない場合は、トグルボタンを使用してモニタリングを開始できます。モニタリング中、デバッガーは、リソース使用率のメトリクスのみ収集して、CPU のボトルネックや GPU の低使用率などのリソース使用率の問題を検出します。Debugger がモニタリングするリソース使用率の問題を網羅したリストについては、「ハードウェアシステムのリソース使用率 (システムメトリクス)をプロファイリングするための Debugger 組み込みルール」を参照してください。

  • [モニタリングの設定] ボタンをクリックすると、ポップアップウィンドウが開き、データ収集の頻度やデータを保存する S3 パスを設定または更新できます。

    Debugger のモニタリング設定を行うためのポップアップウィンドウ

    以下のフィールドに値を指定できます。

    • [S3 バケット URI]: ベース S3 バケット URI を指定します。

    • [モニタリングデータを収集する間隔]: システムメトリックを収集する時間間隔を選択します。ドロップダウンリストから、モニタリング間隔を選択できます。利用可能な間隔は、100 ミリ秒、200 ミリ秒、500 ミリ秒 (デフォルト)、1 秒、5 秒、および 1 分です。

      注記

      時間間隔を短くすると、リソース使用率メトリックの粒度が上がるため、スパイクや異常を高い時間分解能でキャプチャできます。ただし、解像度が高いほど、処理するシステムメトリクスのサイズが大きくなります。これにより、オーバーヘッドが増え、トレーニングや処理時間全体に影響を与える可能性があります。

  • [トレーニングの停止] ボタンを使用して、リソースの使用率に異常が見つかった場合にトレーニングジョブを停止することができます。

  • [レポートをダウンロード] ボタンを使用すると、SageMaker デバッガーの組み込み ProfilerReport ルールを使用して、集約されたプロファイリングレポートをダウンロードできます。このボタンは、組み込みの ProfilerReport ルールを推定器に追加すると有効になります。詳細については、「Configure Built-in Profiler Rules」および「Profiling Report Generated Using SageMaker Debugger」を参照してください。