Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Amazon SageMaker HyperPod menyediakan satu set CloudWatch metrik Amazon yang dapat Anda gunakan untuk memantau kesehatan dan kinerja HyperPod cluster Anda. Metrik ini dikumpulkan dari manajer beban kerja Slurm yang berjalan di HyperPod cluster Anda dan tersedia di namespace. /aws/sagemaker/Clusters
CloudWatch
Metrik tingkat cluster
Metrik tingkat cluster berikut tersedia untuk. HyperPod Metrik ini menggunakan ClusterId
dimensi untuk mengidentifikasi HyperPod cluster tertentu.
CloudWatch nama metrik | Catatan | Nama metrik Amazon EKS Container Insights |
---|---|---|
cluster_node_count | Jumlah total node dalam cluster | cluster_node_count |
cluster_idle_node_count | Jumlah node idle di cluster | N/A |
cluster_failed_node_count | Jumlah node yang gagal di cluster | cluster_failed_node_count |
cluster_cpu_count | Total core CPU di cluster | node_cpu_limit |
cluster_idle_cpu_count | Jumlah core CPU idle di cluster | N/A |
cluster_gpu_count | Total GPUs dalam cluster | node_gpu_limit |
cluster_idle_gpu_count | Jumlah idle GPUs di cluster | N/A |
cluster_running_task_count | Jumlah pekerjaan Slurm yang berjalan di cluster | N/A |
cluster_pending_task_count | Jumlah pekerjaan Slurm yang tertunda di cluster | N/A |
cluster_preempted_task_count | Jumlah pekerjaan Slurm yang dipreempted di cluster | N/A |
cluster_avg_task_wait_time | Waktu tunggu rata-rata untuk pekerjaan Slurm di cluster | N/A |
cluster_max_task_wait_time | Waktu tunggu maksimum untuk pekerjaan Slurm di cluster | N/A |
Metrik tingkat instans
Metrik tingkat instans berikut tersedia untuk. HyperPod Metrik ini juga menggunakan ClusterId
dimensi untuk mengidentifikasi HyperPod cluster tertentu.
CloudWatch nama metrik | Catatan | Nama metrik Amazon EKS Container Insights |
---|---|---|
node_gpu_utilisasi | Pemanfaatan GPU rata-rata di semua instans | node_gpu_utilisasi |
node_gpu_memory_utilization | Pemanfaatan memori GPU rata-rata di semua instance | node_gpu_memory_utilization |
node_cpu_utilization | Pemanfaatan CPU rata-rata di semua instance | node_cpu_utilization |
node_memory_utilization | Pemanfaatan memori rata-rata di semua instance | node_memory_utilization |