Slurm エクスポーターダッシュボードノードエクスポーターダッシュボード NVIDIA DCGM エクスポーターダッシュボード EFA メトリクスダッシュボード FSx Lustre メトリクスダッシュボード用

エクスポートされたメトリクスリファレンス

以下のセクションでは、 SageMaker HyperPod オブザーバビリティのために AWS CloudFormation スタックが正常に設定されると、から Amazon Managed Service for Prometheus SageMaker HyperPod にエクスポートされたメトリクスの包括的なリストを示します。Amazon Managed Grafana ダッシュボードで視覚化されたこれらのメトリクスのモニタリングを開始できます。

Slurm エクスポーターダッシュボード

上の Slurm クラスターの視覚化された情報を提供します SageMaker HyperPod。

メトリクスのタイプ

クラスターの概要： ノード、ジョブ、およびそれらの状態の総数を表示します。
ジョブメトリクス： ジョブの数と状態を経時的に視覚化します。
ノードメトリクス： ノードの状態、割り当て、使用可能なリソースを表示します。
パーティションメトリクス： CPU、メモリ、GPU使用率などのパーティション固有のメトリクスをモニタリングします。
ジョブ効率： 使用するリソースに基づいてジョブ効率を計算します。

メトリクスのリスト

メトリクス名	説明
`slurm_job_count`	Slurm クラスター内のジョブの合計数
`slurm_job_state_count`	各状態のジョブの数 (実行中、保留中、完了など）
`slurm_node_count`	Slurm クラスター内のノードの合計数
`slurm_node_state_count`	各状態のノードの数 (アイドル、割り当て、混合など）
`slurm_partition_node_count`	各パーティション内のノードの数
`slurm_partition_job_count`	各パーティションのジョブの数
`slurm_partition_alloc_cpus`	各パーティションCPUsに割り当てられた合計数
`slurm_partition_free_cpus`	各パーティションCPUsで使用可能な合計数
`slurm_partition_alloc_memory`	各パーティションに割り当てられたメモリの合計
`slurm_partition_free_memory`	各パーティションで使用可能なメモリの合計
`slurm_partition_alloc_gpus`	各パーティションGPUsに割り当てられた合計
`slurm_partition_free_gpus`	各パーティションGPUsで使用可能な合計

ノードエクスポーターダッシュボード

Prometheus ノードエクスポーターが HyperPod クラスターノードから収集したシステムメトリクスの視覚化された情報を提供します。

メトリクスのタイプ

システムの概要： CPUロード平均とメモリ使用量の表示。
メモリメトリクス： 合計メモリ、空きメモリ、スワップ領域を含むメモリ使用率を視覚化します。
ディスク使用量: ディスク容量の使用率と可用性のモニタリング。
ネットワークトラフィック： 時間の経過とともに送受信されたネットワークバイト数を表示します。
ファイルシステムメトリクス： ファイルシステムの使用状況と可用性を分析します。
ディスク I/O メトリクス: ディスクの読み取りおよび書き込みアクティビティを視覚化します。

メトリクスのリスト

エクスポートされたメトリクスの完全なリストについては、「Node exporter and procfs GitHub repositories」を参照してください。次の表は、CPU負荷、メモリ使用量、ディスク容量、ネットワークアクティビティなどのシステムリソースの使用率に関するインサイトを提供するメトリクスのサブセットを示しています。

メトリクス名	説明
`node_load1`	1 分間の負荷平均
`node_load5`	5 分間の負荷平均
`node_load15`	15 分間の負荷平均
`node_memory_MemTotal`	システムメモリの合計
`node_memory_MemFree`	無料のシステムメモリ
`node_memory_MemAvailable`	プロセスへの割り当てに使用できるメモリ
`node_memory_Buffers`	カーネルがバッファリングに使用するメモリ
`node_memory_Cached`	ファイルシステムデータをキャッシュするためにカーネルが使用するメモリ
`node_memory_SwapTotal`	使用可能なスワップ領域の合計
`node_memory_SwapFree`	空きスワップスペース
`node_memory_SwapCached`	一度スワップアウトされたメモリはスワップバックされますが、まだスワップ中です
`node_filesystem_avail_bytes`	使用可能なディスク容量をバイト単位で表示
`node_filesystem_size_bytes`	バイト単位の合計ディスク容量
`node_filesystem_free_bytes`	バイト単位の空きディスク容量
`node_network_receive_bytes`	受信したネットワークバイト数
`node_network_transmit_bytes`	送信されたネットワークバイト数
`node_disk_read_bytes`	ディスクバイトの読み取り
`node_disk_written_bytes`	書き込まれたディスクバイト数

NVIDIA DCGM エクスポーターダッシュボード

NVIDIA DCGM エクスポーターによって収集されたNVIDIAGPUメトリクスの視覚化された情報を提供します。

メトリクスのタイプ

GPU 概要： GPU使用率、温度、電力使用量、メモリ使用量を表示します。
温度メトリクス： GPU 温度を経時的に視覚化します。
電力使用量： GPU消費電力と電力使用量の傾向をモニタリングします。
メモリ使用率： 使用済みGPU、空き、合計メモリを含むメモリ使用量を分析します。
ファン速度： GPUファン速度とバリエーションを表示します。
ECC エラー: メモリエラーと保留中のエラーを追跡します。 GPU ECC

メトリクスのリスト

次の表は、クロック周波数、温度、電力使用量、メモリ使用率、ファン速度、エラーメトリクスなど、NVIDIAGPUヘルスとパフォーマンスに関するインサイトを提供するメトリクスのリストを示しています。

メトリクス名	説明
`DCGM_FI_DEV_SM_CLOCK`	SM クロック周波数 ( 内MHz）
`DCGM_FI_DEV_MEM_CLOCK`	メモリクロック周波数 ( 内MHz）
`DCGM_FI_DEV_MEMORY_TEMP`	メモリ温度 (C)
`DCGM_FI_DEV_GPU_TEMP`	GPU 温度 (C)
`DCGM_FI_DEV_POWER_USAGE`	消費電力 (W 単位）
`DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION`	起動以降の総エネルギー消費量 (mJ)
`DCGM_FI_DEV_PCIE_REPLAY_COUNTER`	PCIe 再試行の合計数
`DCGM_FI_DEV_MEM_COPY_UTIL`	メモリ使用率 (% 単位）
`DCGM_FI_DEV_ENC_UTIL`	エンコーダー使用率 (% 単位）
`DCGM_FI_DEV_DEC_UTIL`	デコーダー使用率 (% 単位）
`DCGM_FI_DEV_XID_ERRORS`	最後に発生したXIDエラーの値
`DCGM_FI_DEV_FB_FREE`	フレームバッファメモリなし (MiB 単位）
`DCGM_FI_DEV_FB_USED`	使用されたフレームバッファメモリ (MiB 内）
`DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL`	すべてのレーンのNVLink帯域幅カウンターの合計数
`DCGM_FI_DEV_VGPU_LICENSE_STATUS`	vGPU ライセンスのステータス
`DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS`	修正不可能なエラーの再マッピングされた行の数
`DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS`	修正可能なエラーの再マッピングされた行の数
`DCGM_FI_DEV_ROW_REMAP_FAILURE`	行の再マッピングが失敗したかどうか

EFA メトリクスダッシュボード

EFA ノードエクスポーターによって収集された P インスタンスに搭載された Amazon Elastic Fabric Adapter (EFA）からのメトリクスの視覚化された情報を提供します。

メトリクスのタイプ

EFA エラーメトリクス： 割り当てエラー、コマンドエラー、メモリマップエラーなどのエラーを視覚化します。
EFA ネットワークトラフィック： 送受信されたバイト、パケット、および作業リクエストのモニタリング。
EFA RDMA パフォーマンス： 転送されたバイト数やエラー率など、RDMA読み取りおよび書き込みオペレーションの分析。
EFA port lifespan: EFA ポートの有効期間を経時的に表示します。
EFA keep-alive パケット： 受信した keep-alive パケットの数を追跡します。

メトリクスのリスト

次の表は、エラー、完了したコマンド、ネットワークトラフィック、リソース使用率など、EFAオペレーションのさまざまな側面に関するインサイトを提供するメトリクスのリストを示しています。

メトリクス名	説明
`node_amazonefa_info`	/sys/class/infiniband/ からの非数値データ。値は常に 1 です。
`node_amazonefa_lifespan`	ポートの存続期間
`node_amazonefa_rdma_read_bytes`	で読み取られたバイト数 RDMA
`node_amazonefa_rdma_read_resp_bytes`	でのリードレスポンスバイト数 RDMA
`node_amazonefa_rdma_read_wr_err`	での読み取り書き込みエラーの数 RDMA
`node_amazonefa_rdma_read_wrs`	を含む読み取り rs の数 RDMA
`node_amazonefa_rdma_write_bytes`	で書き込まれたバイト数 RDMA
`node_amazonefa_rdma_write_recv_bytes`	で書き込まれたバイト数と受信したバイト数 RDMA
`node_amazonefa_rdma_write_wr_err`	エラーで書き込まれたバイト数 RDMA
`node_amazonefa_rdma_write_wrs`	書き込み wrs バイト数 RDMA
`node_amazonefa_recv_bytes`	受信バイト数
`node_amazonefa_recv_wrs`	受信した wrs のバイト数
`node_amazonefa_rx_bytes`	受信バイト数
`node_amazonefa_rx_drops`	ドロップされたパケットの数
`node_amazonefa_rx_pkts`	受信したパケットの数
`node_amazonefa_send_bytes`	送信されたバイト数
`node_amazonefa_send_wrs`	送信された wr の数
`node_amazonefa_tx_bytes`	送信されたバイト数
`node_amazonefa_tx_pkts`	送信されたパケットの数

FSx Lustre メトリクスダッシュボード用

Amazon CloudWatch によって収集された Amazon FSx for Lustre ファイルシステムからのメトリクスの視覚化された情報を提供します。

注記

Grafana FSx for Lustre ダッシュボードは、Amazon をデータソース CloudWatch として使用します。これは、Amazon Managed Service for Prometheus を使用するように設定した他のダッシュボードとは異なります。FSx for Lustre ファイルシステムに関連するメトリクスの正確なモニタリングと視覚化を確実に行うには、 FSx for Lustre ダッシュボードをデータソース CloudWatch として使用するように設定し、 FSx for Lustre ファイルシステムのデプロイ AWS リージョン先と同じを指定します。

メトリクスのタイプ

DataReadBytes： ファイルシステムの読み取りオペレーションのバイト数。
DataWriteBytes： ファイルシステムの書き込みオペレーションのバイト数。
DataReadOperations： 読み取りオペレーションの数。
DataWriteOperations： 書き込みオペレーションの数。
MetadataOperations： メタデータオペレーションの数。
FreeDataStorageCapacity： 使用可能なストレージ容量。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon Managed Grafana ワークスペースを設定する

クラスターの耐障害性