Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Referensi metrik yang diekspor
Bagian berikut menyajikan daftar lengkap metrik yang diekspor dari ke SageMaker HyperPod Amazon Managed Service untuk Prometheus setelah konfigurasi stack berhasil untuk observabilitas. AWS CloudFormation SageMaker HyperPod Anda dapat mulai memantau metrik ini yang divisualisasikan di dasbor Grafana Terkelola Amazon.
Dasbor eksportir slurm
Memberikan informasi yang divisualisasikan dari cluster Slurm pada. SageMaker HyperPod
Jenis metrik
-
Ikhtisar Cluster: Menampilkan jumlah total node, pekerjaan, dan statusnya.
-
Job Metrics: Memvisualisasikan jumlah dan status pekerjaan dari waktu ke waktu.
-
Metrik Node: Menampilkan status node, alokasi, dan sumber daya yang tersedia.
-
Metrik Partisi: Memantau metrik khusus partisi sepertiCPU, memori, dan pemanfaatan. GPU
-
Job Efficiency: Menghitung efisiensi pekerjaan berdasarkan sumber daya yang digunakan.
Daftar metrik
Nama metrik | Deskripsi |
---|---|
slurm_job_count |
Jumlah total pekerjaan di cluster Slurm |
slurm_job_state_count |
Hitungan pekerjaan di setiap negara bagian (misalnya, berjalan, tertunda, selesai) |
slurm_node_count
|
Jumlah total node di cluster Slurm |
slurm_node_state_count
|
Hitungan node di setiap negara bagian (misalnya, idle, alloc, mix) |
slurm_partition_node_count
|
Hitungan node di setiap partisi |
slurm_partition_job_count
|
Hitungan pekerjaan di setiap partisi |
slurm_partition_alloc_cpus
|
Jumlah total yang dialokasikan CPUs di setiap partisi |
slurm_partition_free_cpus
|
Jumlah total yang tersedia CPUs di setiap partisi |
slurm_partition_alloc_memory
|
Total memori yang dialokasikan di setiap partisi |
slurm_partition_free_memory
|
Total memori yang tersedia di setiap partisi |
slurm_partition_alloc_gpus
|
Total dialokasikan GPUs di setiap partisi |
slurm_partition_free_gpus
|
Total tersedia GPUs di setiap partisi |
Dasbor eksportir simpul
Memberikan informasi visualisasi metrik sistem yang dikumpulkan oleh eksportir node Prometheus dari node
Jenis metrik
-
Ikhtisar sistem: Menampilkan rata-rata CPU beban dan penggunaan memori.
-
Metrik memori: Memvisualisasikan pemanfaatan memori termasuk memori total, memori bebas, dan ruang swap.
-
Penggunaan disk: Memantau pemanfaatan dan ketersediaan ruang disk.
-
Lalu lintas jaringan: Menampilkan byte jaringan yang diterima dan ditransmisikan dari waktu ke waktu.
-
Metrik sistem file: Menganalisis penggunaan dan ketersediaan sistem file.
-
Metrik I/O Disk: Memvisualisasikan aktivitas membaca dan menulis disk.
Daftar metrik
Untuk daftar lengkap metrik yang diekspor, lihat Eksportir Node
Nama metrik | Deskripsi |
---|---|
node_load1
|
Rata-rata beban 1 menit |
node_load5
|
Rata-rata beban 5 menit |
node_load15
|
Rata-rata beban 15 menit |
node_memory_MemTotal
|
Total memori sistem |
node_memory_MemFree
|
Memori sistem gratis |
node_memory_MemAvailable
|
Memori yang tersedia untuk alokasi ke proses |
node_memory_Buffers
|
Memori yang digunakan oleh kernel untuk buffering |
node_memory_Cached
|
Memori yang digunakan oleh kernel untuk caching data sistem file |
node_memory_SwapTotal
|
Total ruang swap yang tersedia |
node_memory_SwapFree
|
Ruang swap gratis |
node_memory_SwapCached
|
Memori yang pernah ditukar, ditukar kembali tetapi masih dalam swap |
node_filesystem_avail_bytes
|
Ruang disk yang tersedia dalam byte |
node_filesystem_size_bytes
|
Total ruang disk dalam byte |
node_filesystem_free_bytes
|
Ruang disk kosong dalam byte |
node_network_receive_bytes
|
Byte jaringan diterima |
node_network_transmit_bytes
|
Byte jaringan ditransmisikan |
node_disk_read_bytes
|
Byte disk dibaca |
node_disk_written_bytes
|
Byte disk ditulis |
NVIDIADCGMdasbor eksportir
Memberikan informasi visualisasi NVIDIA GPU metrik yang dikumpulkan oleh eksportir. NVIDIA DCGM
Jenis metrik
-
GPUIkhtisar: Menampilkan GPU pemanfaatan, suhu, penggunaan daya, dan penggunaan memori.
-
Metrik Suhu: Memvisualisasikan GPU suhu dari waktu ke waktu.
-
Penggunaan Daya: Memantau penarikan GPU daya dan tren penggunaan daya.
-
Pemanfaatan Memori: Menganalisis penggunaan GPU memori termasuk memori bekas, bebas, dan total.
-
Kecepatan Kipas: Menampilkan kecepatan dan variasi GPU kipas.
-
ECCKesalahan: Melacak ECC kesalahan GPU memori dan kesalahan yang tertunda.
Daftar metrik
Tabel berikut menunjukkan daftar metrik yang memberikan wawasan tentang NVIDIA GPU kesehatan dan kinerja, termasuk frekuensi clock, suhu, penggunaan daya, pemanfaatan memori, kecepatan kipas, dan metrik kesalahan.
Nama metrik | Deskripsi |
---|---|
DCGM_FI_DEV_SM_CLOCK
|
Frekuensi jam SM (inMHz) |
DCGM_FI_DEV_MEM_CLOCK
|
Frekuensi jam memori (inMHz) |
DCGM_FI_DEV_MEMORY_TEMP
|
Suhu memori (dalam C) |
DCGM_FI_DEV_GPU_TEMP
|
GPUsuhu (dalam C) |
DCGM_FI_DEV_POWER_USAGE
|
Daya tarik (dalam W) |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
|
Konsumsi energi total sejak boot (dalam mJ) |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER
|
Jumlah total percobaan PCIe ulang |
DCGM_FI_DEV_MEM_COPY_UTIL
|
Pemanfaatan memori (dalam%) |
DCGM_FI_DEV_ENC_UTIL
|
Pemanfaatan encoder (dalam%) |
DCGM_FI_DEV_DEC_UTIL
|
Pemanfaatan decoder (dalam%) |
DCGM_FI_DEV_XID_ERRORS
|
Nilai XID kesalahan terakhir yang ditemui |
DCGM_FI_DEV_FB_FREE
|
Frame buffer memori bebas (dalam MiB) |
DCGM_FI_DEV_FB_USED
|
Memori buffer bingkai yang digunakan (dalam MiB) |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL
|
Jumlah total penghitung NVLink bandwidth untuk semua jalur |
DCGM_FI_DEV_VGPU_LICENSE_STATUS
|
v Status GPU lisensi |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS
|
Jumlah baris yang dipetakan ulang untuk kesalahan yang tidak dapat diperbaiki |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS
|
Jumlah baris yang dipetakan ulang untuk kesalahan yang dapat diperbaiki |
DCGM_FI_DEV_ROW_REMAP_FAILURE
|
Apakah pemetaan ulang baris gagal |
EFAdasbor metrik
Memberikan informasi visualisasi metrik dari Amazon Elastic Fabric Adapter (EFA) yang dilengkapi pada instans P yang dikumpulkan oleh EFA pengekspor node.
Jenis metrik
-
EFAmetrik kesalahan: Memvisualisasikan kesalahan seperti kesalahan alokasi, kesalahan perintah, dan kesalahan peta memori.
-
EFAlalu lintas jaringan: Memantau byte, paket, dan permintaan kerja yang diterima dan ditransmisikan.
-
EFARDMAkinerja: Menganalisis operasi RDMA baca dan tulis, termasuk byte yang ditransfer dan tingkat kesalahan.
-
EFAumur port: Menampilkan umur port dari waktu ke waktu. EFA
-
EFAkeep-alive packets: Melacak jumlah paket keep-alive yang diterima.
Daftar metrik
Tabel berikut menunjukkan daftar metrik yang memberikan wawasan tentang berbagai aspek EFA operasi, termasuk kesalahan, perintah yang diselesaikan, lalu lintas jaringan, dan pemanfaatan sumber daya.
Nama metrik | Deskripsi |
---|---|
node_amazonefa_info
|
Data non-numerik dari /sys/class/infiniband/, nilainya selalu 1. |
node_amazonefa_lifespan
|
Umur pelabuhan |
node_amazonefa_rdma_read_bytes
|
Jumlah byte yang dibaca dengan RDMA |
node_amazonefa_rdma_read_resp_bytes
|
Jumlah byte respons baca dengan RDMA |
node_amazonefa_rdma_read_wr_err
|
Jumlah kesalahan baca tulis dengan RDMA |
node_amazonefa_rdma_read_wrs
|
Jumlah baca rs dengan RDMA |
node_amazonefa_rdma_write_bytes
|
Jumlah byte yang ditulis dengan RDMA |
node_amazonefa_rdma_write_recv_bytes
|
Jumlah byte yang ditulis dan diterima dengan RDMA |
node_amazonefa_rdma_write_wr_err
|
Jumlah byte yang ditulis dengan kesalahan RDMA |
node_amazonefa_rdma_write_wrs
|
Jumlah byte ditulis wrs RDMA |
node_amazonefa_recv_bytes
|
Jumlah byte yang diterima |
node_amazonefa_recv_wrs
|
Jumlah byte yang diterima wrs |
node_amazonefa_rx_bytes
|
Jumlah byte yang diterima |
node_amazonefa_rx_drops
|
Jumlah paket yang dijatuhkan |
node_amazonefa_rx_pkts
|
Jumlah paket yang diterima |
node_amazonefa_send_bytes
|
Jumlah byte yang dikirim |
node_amazonefa_send_wrs
|
Jumlah wrs yang dikirim |
node_amazonefa_tx_bytes
|
Jumlah byte yang ditransmisikan |
node_amazonefa_tx_pkts
|
Jumlah paket yang ditransmisikan |
FSxuntuk dasbor metrik Lustre
Memberikan informasi visualisasi metrik dari Amazon FSx untuk sistem file Lustre yang dikumpulkan oleh Amazon. CloudWatch
catatan
Dasbor Grafana FSx for Lustre menggunakan Amazon CloudWatch sebagai sumber datanya, yang berbeda dari dasbor lain yang telah Anda konfigurasikan untuk menggunakan Amazon Managed Service untuk Prometheus. Untuk memastikan pemantauan dan visualisasi metrik yang akurat terkait dengan sistem file FSx for Lustre Anda, konfigurasikan dasbor FSx for Lustre untuk menggunakan CloudWatch Amazon sebagai sumber data, dengan menentukan hal yang Wilayah AWS sama di mana sistem file for Lustre FSx Anda digunakan.
Jenis metrik
-
DataReadBytes: Jumlah byte untuk operasi membaca sistem file.
-
DataWriteBytes: Jumlah byte untuk operasi penulisan sistem file.
-
DataReadOperations: Jumlah operasi baca.
-
DataWriteOperations: Jumlah operasi tulis.
-
MetadataOperations: Jumlah operasi meta data.
-
FreeDataStorageCapacity: Jumlah kapasitas penyimpanan yang tersedia.