Referensi metrik yang diekspor - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Referensi metrik yang diekspor

Bagian berikut menyajikan daftar lengkap metrik yang diekspor dari ke SageMaker HyperPod Amazon Managed Service untuk Prometheus setelah konfigurasi stack berhasil untuk observabilitas. AWS CloudFormation SageMaker HyperPod Anda dapat mulai memantau metrik ini yang divisualisasikan di dasbor Grafana Terkelola Amazon.

Dasbor eksportir slurm

Memberikan informasi yang divisualisasikan dari cluster Slurm pada. SageMaker HyperPod

Jenis metrik

  • Ikhtisar Cluster: Menampilkan jumlah total node, pekerjaan, dan statusnya.

  • Job Metrics: Memvisualisasikan jumlah dan status pekerjaan dari waktu ke waktu.

  • Metrik Node: Menampilkan status node, alokasi, dan sumber daya yang tersedia.

  • Metrik Partisi: Memantau metrik khusus partisi sepertiCPU, memori, dan pemanfaatan. GPU

  • Job Efficiency: Menghitung efisiensi pekerjaan berdasarkan sumber daya yang digunakan.

Daftar metrik

Nama metrik Deskripsi
slurm_job_count Jumlah total pekerjaan di cluster Slurm
slurm_job_state_count Hitungan pekerjaan di setiap negara bagian (misalnya, berjalan, tertunda, selesai)
slurm_node_count Jumlah total node di cluster Slurm
slurm_node_state_count Hitungan node di setiap negara bagian (misalnya, idle, alloc, mix)
slurm_partition_node_count Hitungan node di setiap partisi
slurm_partition_job_count Hitungan pekerjaan di setiap partisi
slurm_partition_alloc_cpus Jumlah total yang dialokasikan CPUs di setiap partisi
slurm_partition_free_cpus Jumlah total yang tersedia CPUs di setiap partisi
slurm_partition_alloc_memory Total memori yang dialokasikan di setiap partisi
slurm_partition_free_memory Total memori yang tersedia di setiap partisi
slurm_partition_alloc_gpus Total dialokasikan GPUs di setiap partisi
slurm_partition_free_gpus Total tersedia GPUs di setiap partisi

Dasbor eksportir simpul

Memberikan informasi visualisasi metrik sistem yang dikumpulkan oleh eksportir node Prometheus dari node cluster. HyperPod

Jenis metrik

  • Ikhtisar sistem: Menampilkan rata-rata CPU beban dan penggunaan memori.

  • Metrik memori: Memvisualisasikan pemanfaatan memori termasuk memori total, memori bebas, dan ruang swap.

  • Penggunaan disk: Memantau pemanfaatan dan ketersediaan ruang disk.

  • Lalu lintas jaringan: Menampilkan byte jaringan yang diterima dan ditransmisikan dari waktu ke waktu.

  • Metrik sistem file: Menganalisis penggunaan dan ketersediaan sistem file.

  • Metrik I/O Disk: Memvisualisasikan aktivitas membaca dan menulis disk.

Daftar metrik

Untuk daftar lengkap metrik yang diekspor, lihat Eksportir Node dan repositori procfs. GitHub Tabel berikut menunjukkan subset metrik yang memberikan wawasan tentang pemanfaatan sumber daya sistem seperti CPU beban, penggunaan memori, ruang disk, dan aktivitas jaringan.

Nama metrik Deskripsi
node_load1 Rata-rata beban 1 menit
node_load5 Rata-rata beban 5 menit
node_load15 Rata-rata beban 15 menit
node_memory_MemTotal Total memori sistem
node_memory_MemFree Memori sistem gratis
node_memory_MemAvailable Memori yang tersedia untuk alokasi ke proses
node_memory_Buffers Memori yang digunakan oleh kernel untuk buffering
node_memory_Cached Memori yang digunakan oleh kernel untuk caching data sistem file
node_memory_SwapTotal Total ruang swap yang tersedia
node_memory_SwapFree Ruang swap gratis
node_memory_SwapCached Memori yang pernah ditukar, ditukar kembali tetapi masih dalam swap
node_filesystem_avail_bytes Ruang disk yang tersedia dalam byte
node_filesystem_size_bytes Total ruang disk dalam byte
node_filesystem_free_bytes Ruang disk kosong dalam byte
node_network_receive_bytes Byte jaringan diterima
node_network_transmit_bytes Byte jaringan ditransmisikan
node_disk_read_bytes Byte disk dibaca
node_disk_written_bytes Byte disk ditulis

NVIDIADCGMdasbor eksportir

Memberikan informasi visualisasi NVIDIA GPU metrik yang dikumpulkan oleh eksportir. NVIDIA DCGM

Jenis metrik

  • GPUIkhtisar: Menampilkan GPU pemanfaatan, suhu, penggunaan daya, dan penggunaan memori.

  • Metrik Suhu: Memvisualisasikan GPU suhu dari waktu ke waktu.

  • Penggunaan Daya: Memantau penarikan GPU daya dan tren penggunaan daya.

  • Pemanfaatan Memori: Menganalisis penggunaan GPU memori termasuk memori bekas, bebas, dan total.

  • Kecepatan Kipas: Menampilkan kecepatan dan variasi GPU kipas.

  • ECCKesalahan: Melacak ECC kesalahan GPU memori dan kesalahan yang tertunda.

Daftar metrik

Tabel berikut menunjukkan daftar metrik yang memberikan wawasan tentang NVIDIA GPU kesehatan dan kinerja, termasuk frekuensi clock, suhu, penggunaan daya, pemanfaatan memori, kecepatan kipas, dan metrik kesalahan.

Nama metrik Deskripsi
DCGM_FI_DEV_SM_CLOCK Frekuensi jam SM (inMHz)
DCGM_FI_DEV_MEM_CLOCK Frekuensi jam memori (inMHz)
DCGM_FI_DEV_MEMORY_TEMP Suhu memori (dalam C)
DCGM_FI_DEV_GPU_TEMP GPUsuhu (dalam C)
DCGM_FI_DEV_POWER_USAGE Daya tarik (dalam W)
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Konsumsi energi total sejak boot (dalam mJ)
DCGM_FI_DEV_PCIE_REPLAY_COUNTER Jumlah total percobaan PCIe ulang
DCGM_FI_DEV_MEM_COPY_UTIL Pemanfaatan memori (dalam%)
DCGM_FI_DEV_ENC_UTIL Pemanfaatan encoder (dalam%)
DCGM_FI_DEV_DEC_UTIL Pemanfaatan decoder (dalam%)
DCGM_FI_DEV_XID_ERRORS Nilai XID kesalahan terakhir yang ditemui
DCGM_FI_DEV_FB_FREE Frame buffer memori bebas (dalam MiB)
DCGM_FI_DEV_FB_USED Memori buffer bingkai yang digunakan (dalam MiB)
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Jumlah total penghitung NVLink bandwidth untuk semua jalur
DCGM_FI_DEV_VGPU_LICENSE_STATUS v Status GPU lisensi
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS Jumlah baris yang dipetakan ulang untuk kesalahan yang tidak dapat diperbaiki
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS Jumlah baris yang dipetakan ulang untuk kesalahan yang dapat diperbaiki
DCGM_FI_DEV_ROW_REMAP_FAILURE Apakah pemetaan ulang baris gagal

EFAdasbor metrik

Memberikan informasi visualisasi metrik dari Amazon Elastic Fabric Adapter (EFA) yang dilengkapi pada instans P yang dikumpulkan oleh EFA pengekspor node.

Jenis metrik

  • EFAmetrik kesalahan: Memvisualisasikan kesalahan seperti kesalahan alokasi, kesalahan perintah, dan kesalahan peta memori.

  • EFAlalu lintas jaringan: Memantau byte, paket, dan permintaan kerja yang diterima dan ditransmisikan.

  • EFARDMAkinerja: Menganalisis operasi RDMA baca dan tulis, termasuk byte yang ditransfer dan tingkat kesalahan.

  • EFAumur port: Menampilkan umur port dari waktu ke waktu. EFA

  • EFAkeep-alive packets: Melacak jumlah paket keep-alive yang diterima.

Daftar metrik

Tabel berikut menunjukkan daftar metrik yang memberikan wawasan tentang berbagai aspek EFA operasi, termasuk kesalahan, perintah yang diselesaikan, lalu lintas jaringan, dan pemanfaatan sumber daya.

Nama metrik Deskripsi
node_amazonefa_info Data non-numerik dari /sys/class/infiniband/, nilainya selalu 1.
node_amazonefa_lifespan Umur pelabuhan
node_amazonefa_rdma_read_bytes Jumlah byte yang dibaca dengan RDMA
node_amazonefa_rdma_read_resp_bytes Jumlah byte respons baca dengan RDMA
node_amazonefa_rdma_read_wr_err Jumlah kesalahan baca tulis dengan RDMA
node_amazonefa_rdma_read_wrs Jumlah baca rs dengan RDMA
node_amazonefa_rdma_write_bytes Jumlah byte yang ditulis dengan RDMA
node_amazonefa_rdma_write_recv_bytes Jumlah byte yang ditulis dan diterima dengan RDMA
node_amazonefa_rdma_write_wr_err Jumlah byte yang ditulis dengan kesalahan RDMA
node_amazonefa_rdma_write_wrs Jumlah byte ditulis wrs RDMA
node_amazonefa_recv_bytes Jumlah byte yang diterima
node_amazonefa_recv_wrs Jumlah byte yang diterima wrs
node_amazonefa_rx_bytes Jumlah byte yang diterima
node_amazonefa_rx_drops Jumlah paket yang dijatuhkan
node_amazonefa_rx_pkts Jumlah paket yang diterima
node_amazonefa_send_bytes Jumlah byte yang dikirim
node_amazonefa_send_wrs Jumlah wrs yang dikirim
node_amazonefa_tx_bytes Jumlah byte yang ditransmisikan
node_amazonefa_tx_pkts Jumlah paket yang ditransmisikan

FSxuntuk dasbor metrik Lustre

Memberikan informasi visualisasi metrik dari Amazon FSx untuk sistem file Lustre yang dikumpulkan oleh Amazon. CloudWatch

catatan

Dasbor Grafana FSx for Lustre menggunakan Amazon CloudWatch sebagai sumber datanya, yang berbeda dari dasbor lain yang telah Anda konfigurasikan untuk menggunakan Amazon Managed Service untuk Prometheus. Untuk memastikan pemantauan dan visualisasi metrik yang akurat terkait dengan sistem file FSx for Lustre Anda, konfigurasikan dasbor FSx for Lustre untuk menggunakan CloudWatch Amazon sebagai sumber data, dengan menentukan hal yang Wilayah AWS sama di mana sistem file for Lustre FSx Anda digunakan.

Jenis metrik

  • DataReadBytes: Jumlah byte untuk operasi membaca sistem file.

  • DataWriteBytes: Jumlah byte untuk operasi penulisan sistem file.

  • DataReadOperations: Jumlah operasi baca.

  • DataWriteOperations: Jumlah operasi tulis.

  • MetadataOperations: Jumlah operasi meta data.

  • FreeDataStorageCapacity: Jumlah kapasitas penyimpanan yang tersedia.