Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Metrik Amazon SageMaker HyperPod Slurm

Mode fokus
Metrik Amazon SageMaker HyperPod Slurm - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Amazon SageMaker HyperPod menyediakan satu set CloudWatch metrik Amazon yang dapat Anda gunakan untuk memantau kesehatan dan kinerja HyperPod cluster Anda. Metrik ini dikumpulkan dari manajer beban kerja Slurm yang berjalan di HyperPod cluster Anda dan tersedia di namespace. /aws/sagemaker/Clusters CloudWatch

Metrik tingkat cluster

Metrik tingkat cluster berikut tersedia untuk. HyperPod Metrik ini menggunakan ClusterId dimensi untuk mengidentifikasi HyperPod cluster tertentu.

CloudWatch nama metrik Catatan Nama metrik Amazon EKS Container Insights
cluster_node_count Jumlah total node dalam cluster cluster_node_count
cluster_idle_node_count Jumlah node idle di cluster N/A
cluster_failed_node_count Jumlah node yang gagal di cluster cluster_failed_node_count
cluster_cpu_count Total core CPU di cluster node_cpu_limit
cluster_idle_cpu_count Jumlah core CPU idle di cluster N/A
cluster_gpu_count Total GPUs dalam cluster node_gpu_limit
cluster_idle_gpu_count Jumlah idle GPUs di cluster N/A
cluster_running_task_count Jumlah pekerjaan Slurm yang berjalan di cluster N/A
cluster_pending_task_count Jumlah pekerjaan Slurm yang tertunda di cluster N/A
cluster_preempted_task_count Jumlah pekerjaan Slurm yang dipreempted di cluster N/A
cluster_avg_task_wait_time Waktu tunggu rata-rata untuk pekerjaan Slurm di cluster N/A
cluster_max_task_wait_time Waktu tunggu maksimum untuk pekerjaan Slurm di cluster N/A

Metrik tingkat instans

Metrik tingkat instans berikut tersedia untuk. HyperPod Metrik ini juga menggunakan ClusterId dimensi untuk mengidentifikasi HyperPod cluster tertentu.

CloudWatch nama metrik Catatan Nama metrik Amazon EKS Container Insights
node_gpu_utilisasi Pemanfaatan GPU rata-rata di semua instans node_gpu_utilisasi
node_gpu_memory_utilization Pemanfaatan memori GPU rata-rata di semua instance node_gpu_memory_utilization
node_cpu_utilization Pemanfaatan CPU rata-rata di semua instance node_cpu_utilization
node_memory_utilization Pemanfaatan memori rata-rata di semua instance node_memory_utilization
PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.