エクスポートされたメトリクスリファレンス - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

エクスポートされたメトリクスリファレンス

以下のセクションでは、 SageMaker HyperPod オブザーバビリティのために AWS CloudFormation スタックが正常に設定されると、 から Amazon Managed Service for Prometheus SageMaker HyperPod にエクスポートされたメトリクスの包括的なリストを示します。Amazon Managed Grafana ダッシュボードで視覚化されたこれらのメトリクスのモニタリングを開始できます。

Slurm エクスポーターダッシュボード

上の Slurm クラスターの視覚化された情報を提供します SageMaker HyperPod。

メトリクスのタイプ

  • クラスターの概要: ノード、ジョブ、およびそれらの状態の総数を表示します。

  • ジョブメトリクス: ジョブの数と状態を経時的に視覚化します。

  • ノードメトリクス: ノードの状態、割り当て、使用可能なリソースを表示します。

  • パーティションメトリクス: CPU、メモリ、GPU使用率などのパーティション固有のメトリクスをモニタリングします。

  • ジョブ効率: 使用するリソースに基づいてジョブ効率を計算します。

メトリクスのリスト

メトリクス名 説明
slurm_job_count Slurm クラスター内のジョブの合計数
slurm_job_state_count 各状態のジョブの数 (実行中、保留中、完了など)
slurm_node_count Slurm クラスター内のノードの合計数
slurm_node_state_count 各状態のノードの数 (アイドル、割り当て、混合など)
slurm_partition_node_count 各パーティション内のノードの数
slurm_partition_job_count 各パーティションのジョブの数
slurm_partition_alloc_cpus 各パーティションCPUsに割り当てられた合計数
slurm_partition_free_cpus 各パーティションCPUsで使用可能な合計数
slurm_partition_alloc_memory 各パーティションに割り当てられたメモリの合計
slurm_partition_free_memory 各パーティションで使用可能なメモリの合計
slurm_partition_alloc_gpus 各パーティションGPUsに割り当てられた合計
slurm_partition_free_gpus 各パーティションGPUsで使用可能な合計

ノードエクスポーターダッシュボード

Prometheus ノードエクスポーターが HyperPod クラスターノードから収集したシステムメトリクスの視覚化された情報を提供します。

メトリクスのタイプ

  • システムの概要: CPUロード平均とメモリ使用量の表示。

  • メモリメトリクス: 合計メモリ、空きメモリ、スワップ領域を含むメモリ使用率を視覚化します。

  • ディスク使用量: ディスク容量の使用率と可用性のモニタリング。

  • ネットワークトラフィック: 時間の経過とともに送受信されたネットワークバイト数を表示します。

  • ファイルシステムメトリクス: ファイルシステムの使用状況と可用性を分析します。

  • ディスク I/O メトリクス: ディスクの読み取りおよび書き込みアクティビティを視覚化します。

メトリクスのリスト

エクスポートされたメトリクスの完全なリストについては、「Node exporter and procfs GitHub repositories」を参照してください。次の表は、CPU負荷、メモリ使用量、ディスク容量、ネットワークアクティビティなどのシステムリソースの使用率に関するインサイトを提供するメトリクスのサブセットを示しています。

メトリクス名 説明
node_load1 1 分間の負荷平均
node_load5 5 分間の負荷平均
node_load15 15 分間の負荷平均
node_memory_MemTotal システムメモリの合計
node_memory_MemFree 無料のシステムメモリ
node_memory_MemAvailable プロセスへの割り当てに使用できるメモリ
node_memory_Buffers カーネルがバッファリングに使用するメモリ
node_memory_Cached ファイルシステムデータをキャッシュするためにカーネルが使用するメモリ
node_memory_SwapTotal 使用可能なスワップ領域の合計
node_memory_SwapFree 空きスワップスペース
node_memory_SwapCached 一度スワップアウトされたメモリはスワップバックされますが、まだスワップ中です
node_filesystem_avail_bytes 使用可能なディスク容量をバイト単位で表示
node_filesystem_size_bytes バイト単位の合計ディスク容量
node_filesystem_free_bytes バイト単位の空きディスク容量
node_network_receive_bytes 受信したネットワークバイト数
node_network_transmit_bytes 送信されたネットワークバイト数
node_disk_read_bytes ディスクバイトの読み取り
node_disk_written_bytes 書き込まれたディスクバイト数

NVIDIA DCGM エクスポーターダッシュボード

NVIDIA DCGM エクスポーター によって収集されたNVIDIAGPUメトリクスの視覚化された情報を提供します。

メトリクスのタイプ

  • GPU 概要: GPU使用率、温度、電力使用量、メモリ使用量を表示します。

  • 温度メトリクス: GPU 温度を経時的に視覚化します。

  • 電力使用量: GPU消費電力と電力使用量の傾向をモニタリングします。

  • メモリ使用率: 使用済みGPU、空き、合計メモリを含むメモリ使用量を分析します。

  • ファン速度: GPUファン速度とバリエーションを表示します。

  • ECC エラー: メモリエラーと保留中のエラーを追跡します。 GPU ECC

メトリクスのリスト

次の表は、クロック周波数、温度、電力使用量、メモリ使用率、ファン速度、エラーメトリクスなど、NVIDIAGPUヘルスとパフォーマンスに関するインサイトを提供するメトリクスのリストを示しています。

メトリクス名 説明
DCGM_FI_DEV_SM_CLOCK SM クロック周波数 ( 内MHz)
DCGM_FI_DEV_MEM_CLOCK メモリクロック周波数 ( 内MHz)
DCGM_FI_DEV_MEMORY_TEMP メモリ温度 (C)
DCGM_FI_DEV_GPU_TEMP GPU 温度 (C)
DCGM_FI_DEV_POWER_USAGE 消費電力 (W 単位)
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION 起動以降の総エネルギー消費量 (mJ)
DCGM_FI_DEV_PCIE_REPLAY_COUNTER PCIe 再試行の合計数
DCGM_FI_DEV_MEM_COPY_UTIL メモリ使用率 (% 単位)
DCGM_FI_DEV_ENC_UTIL エンコーダー使用率 (% 単位)
DCGM_FI_DEV_DEC_UTIL デコーダー使用率 (% 単位)
DCGM_FI_DEV_XID_ERRORS 最後に発生したXIDエラーの値
DCGM_FI_DEV_FB_FREE フレームバッファメモリなし (MiB 単位)
DCGM_FI_DEV_FB_USED 使用されたフレームバッファメモリ (MiB 内)
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL すべてのレーンのNVLink帯域幅カウンターの合計数
DCGM_FI_DEV_VGPU_LICENSE_STATUS vGPU ライセンスのステータス
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS 修正不可能なエラーの再マッピングされた行の数
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS 修正可能なエラーの再マッピングされた行の数
DCGM_FI_DEV_ROW_REMAP_FAILURE 行の再マッピングが失敗したかどうか

EFA メトリクスダッシュボード

EFA ノードエクスポーター によって収集された P インスタンスに搭載された Amazon Elastic Fabric Adapter (EFA) からのメトリクスの視覚化された情報を提供します。

メトリクスのタイプ

  • EFA エラーメトリクス: 割り当てエラー、コマンドエラー、メモリマップエラーなどのエラーを視覚化します。

  • EFA ネットワークトラフィック: 送受信されたバイト、パケット、および作業リクエストのモニタリング。

  • EFA RDMA パフォーマンス: 転送されたバイト数やエラー率など、RDMA読み取りおよび書き込みオペレーションの分析。

  • EFA port lifespan: EFA ポートの有効期間を経時的に表示します。

  • EFA keep-alive パケット: 受信した keep-alive パケットの数を追跡します。

メトリクスのリスト

次の表は、エラー、完了したコマンド、ネットワークトラフィック、リソース使用率など、EFAオペレーションのさまざまな側面に関するインサイトを提供するメトリクスのリストを示しています。

メトリクス名 説明
node_amazonefa_info /sys/class/infiniband/ からの非数値データ。値は常に 1 です。
node_amazonefa_lifespan ポートの存続期間
node_amazonefa_rdma_read_bytes で読み取られたバイト数 RDMA
node_amazonefa_rdma_read_resp_bytes でのリードレスポンスバイト数 RDMA
node_amazonefa_rdma_read_wr_err での読み取り書き込みエラーの数 RDMA
node_amazonefa_rdma_read_wrs を含む読み取り rs の数 RDMA
node_amazonefa_rdma_write_bytes で書き込まれたバイト数 RDMA
node_amazonefa_rdma_write_recv_bytes で書き込まれたバイト数と受信したバイト数 RDMA
node_amazonefa_rdma_write_wr_err エラーで書き込まれたバイト数 RDMA
node_amazonefa_rdma_write_wrs 書き込み wrs バイト数 RDMA
node_amazonefa_recv_bytes 受信バイト数
node_amazonefa_recv_wrs 受信した wrs のバイト数
node_amazonefa_rx_bytes 受信バイト数
node_amazonefa_rx_drops ドロップされたパケットの数
node_amazonefa_rx_pkts 受信したパケットの数
node_amazonefa_send_bytes 送信されたバイト数
node_amazonefa_send_wrs 送信された wr の数
node_amazonefa_tx_bytes 送信されたバイト数
node_amazonefa_tx_pkts 送信されたパケットの数

FSx Lustre メトリクスダッシュボード用

Amazon CloudWatch によって収集された Amazon FSx for Lustre ファイルシステムからのメトリクスの視覚化された情報を提供します。

注記

Grafana FSx for Lustre ダッシュボードは、Amazon をデータソース CloudWatch として使用します。これは、Amazon Managed Service for Prometheus を使用するように設定した他のダッシュボードとは異なります。FSx for Lustre ファイルシステムに関連するメトリクスの正確なモニタリングと視覚化を確実に行うには、 FSx for Lustre ダッシュボードをデータソース CloudWatch として使用するように設定し、 FSx for Lustre ファイルシステムのデプロイ AWS リージョン 先と同じ を指定します。

メトリクスのタイプ

  • DataReadBytes: ファイルシステムの読み取りオペレーションのバイト数。

  • DataWriteBytes: ファイルシステムの書き込みオペレーションのバイト数。

  • DataReadOperations: 読み取りオペレーションの数。

  • DataWriteOperations: 書き込みオペレーションの数。

  • MetadataOperations: メタデータオペレーションの数。

  • FreeDataStorageCapacity: 使用可能なストレージ容量。