Metrik Wawasan Kontainer Amazon EKS dan Kubernetes - Amazon CloudWatch

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Metrik Wawasan Kontainer Amazon EKS dan Kubernetes

Tabel berikut mencantumkan metrik dan dimensi yang dikumpulkan Container Insights untuk Amazon EKS dan Kubernetes. Metrik-metrik ini berada di namespace ContainerInsights. Untuk informasi selengkapnya, lihat Metrik.

Jika Anda tidak melihat metrik Wawasan Kontainer di konsol Anda, maka Anda harus memastikan bahwa telah menyelesaikan penyiapan Wawasan Kontainer. Metrik tidak akan ditampilkan sebelum Wawasan Kontainer telah disiapkan sepenuhnya. Untuk informasi selengkapnya, lihat Menyiapkan Wawasan Kontainer.

Jika Anda menggunakan versi 1.5.0 atau yang lebih baru dari EKS add-on Amazon atau versi 1.300035.0 CloudWatch agen, sebagian besar metrik yang tercantum dalam tabel berikut dikumpulkan untuk node Linux dan Windows. Lihat kolom Nama Metrik tabel untuk melihat metrik mana yang tidak dikumpulkan untuk Windows.

Dengan Wawasan Kontainer versi asli, metrik-metrik tersebut akan dikenai biaya sebagai metrik kustom. Dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk AmazonEKS, metrik Container Insights dibebankan per observasi alih-alih dibebankan per metrik yang disimpan atau log yang tertelan. Untuk informasi selengkapnya tentang CloudWatch harga, lihat CloudWatch Harga Amazon.

catatan

Di Windows, metrik jaringan seperti pod_network_rx_bytes dan tidak pod_network_tx_bytes dikumpulkan untuk wadah proses host.

Nama metrik Dimensi-dimensi dengan versi Wawasan Kontainer apa pun Dimensi tambahan dengan Wawasan Kontainer dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS Deskripsi

cluster_failed_node_count

ClusterName

Jumlah simpul pekerja yang mengalami kegagalan dalam klaster. Sebuah simpul dianggap mengalami kegagalan jika mengalami kondisi simpul apa pun. Untuk informasi selengkapnya tentang hal itu, silakan lihat Kondisi dalam dokumentasi Kubernetes.

cluster_node_count

ClusterName

Jumlah total simpul pekerja yang ada di klaster.

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

Jumlah pod yang berjalan untuk masing-masing namespace dalam sumber daya yang ditentukan oleh dimensi-dimensi yang sedang Anda gunakan.

node_cpu_limit

ClusterName

ClusterName, InstanceId, NodeName

Jumlah maksimum CPU unit yang dapat ditetapkan untuk satu node dalam cluster ini.

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

Persentase CPU unit yang dicadangkan untuk komponen node, seperti kubelet, kube-proxy, dan Docker.

Rumus: node_cpu_request / node_cpu_limit

catatan

node_cpu_request tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

node_cpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

Jumlah CPU unit yang digunakan pada node di cluster.

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

Persentase total CPU unit yang digunakan pada node di cluster.

Rumus: node_cpu_usage_total / node_cpu_limit

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

Persentase total kapasitas sistem file yang sedang digunakan pada satu simpul tunggal dalam klaster.

Rumus: node_filesystem_usage / node_filesystem_capacity

catatan

node_filesystem_usage dan node_filesystem_capacity tidak akan dilaporkan secara langsung sebagai metrik, tetapi sebagai bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

node_memory_limit

ClusterName

ClusterName, InstanceId, NodeName

Jumlah memori maksimum, dalam byte, yang dapat ditetapkan ke satu simpul tunggal dalam klaster ini.

node_filesystem_inodes

Metrik ini hanya tersedia dengan Container Insights dengan peningkatan observabilitas untuk Amazon. EKS Ini tidak tersedia di Windows.

ClusterName

ClusterName, InstanceId, NodeName

Jumlah total inode (yang digunakan dan tidak digunakan) pada sebuah simpul.

node_filesystem_inodes_free

Metrik ini hanya tersedia dengan Container Insights dengan peningkatan observabilitas untuk Amazon. EKS Ini tidak tersedia di Windows.

ClusterName

ClusterName, InstanceId, NodeName

Jumlah inode yang tidak digunakan pada sebuah simpul.

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

Persentase memori yang saat ini sedang digunakan pada simpul di klaster.

Rumus: node_memory_request / node_memory_limit

catatan

node_memory_request tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

Persentase memori yang saat ini sedang digunakan oleh simpul atau simpul-simpul tersebut. Ini adalah persentase penggunaan memori simpul yang dibagi dengan batasan memori simpul.

Rumus: node_memory_working_set / node_memory_limit.

node_memory_working_set

ClusterName

ClusterName, InstanceId, NodeName

Jumlah memori, dalam byte, yang sedang digunakan dalam serangkaian simpul dalam klaster.

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

Jumlah total byte per detik yang ditransmisikan dan diterima melalui jaringan untuk setiap simpul dalam sebuah klaster.

Rumus: node_network_rx_bytes + node_network_tx_bytes

catatan

node_network_rx_bytes dan node_network_tx_bytes tidak akan dilaporkan secara langsung sebagai metrik, tetapi sebagai bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

Jumlah kontainer yang sedang berjalan untuk setiap simpul dalam sebuah klaster.

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

Jumlah pod yang sedang berjalan untuk setiap simpul dalam sebuah klaster.

node_status_allocatable_pods

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Jumlah pod yang dapat ditetapkan ke sebuah simpul berdasarkan sumber daya yang dapat dialokasikan, yang didefinisikan sebagai sisa kapasitas simpul setelah memperhitungkan reservasi daemon sistem dan ambang batas pengosongan keras.

node_status_capacity_pods

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Jumlah pod yang dapat ditetapkan ke sebuah simpul berdasarkan kapasitasnya.

node_status_condition_ready

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Menunjukkan apakah kondisi status node Ready benar untuk EC2 node Amazon.

node_status_condition_memory_pressure

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Menunjukkan apakah kondisi status simpul dalam keadaan MemoryPressure benar.

node_status_condition_pid_pressure

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Menunjukkan apakah kondisi status simpul dalam keadaan PIDPressure benar.

node_status_condition_disk_pressure

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Menunjukkan apakah kondisi status simpul dalam keadaan OutOfDisk benar.

node_status_condition_unknown

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Menunjukkan apakah salah satu kondisi status simpul Unknown.

node_interface_network_rx_dropped

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Jumlah paket yang diterima dan kemudian dijatuhkan oleh sebuah antarmuka jaringan pada simpul.

node_interface_network_tx_dropped

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Jumlah paket yang akan ditransmisikan tetapi dijatuhkan oleh sebuah antarmuka jaringan pada simpul.

node_diskio_io_service_bytes_total

Metrik ini hanya tersedia dengan Container Insights dengan peningkatan observabilitas untuk Amazon. EKS Ini tidak tersedia di Windows.

ClusterName

ClusterName, InstanceId, NodeName

Jumlah total byte yang ditransfer oleh semua operasi I/O pada simpul.

node_diskio_io_serviced_total

Metrik ini hanya tersedia dengan Container Insights dengan peningkatan observabilitas untuk Amazon. EKS Ini tidak tersedia di Windows.

ClusterName

ClusterName, InstanceId, NodeName

Jumlah total operasi I/O yang ada di simpul.

pod_cpu_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

CPUKapasitas yang dicadangkan per pod dalam sebuah cluster.

Rumus: pod_cpu_request / node_cpu_limit

catatan

pod_cpu_request tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

pod_cpu_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Layanan, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Persentase CPU unit yang digunakan oleh pod.

Rumus: pod_cpu_usage_total / node_cpu_limit

catatan

pod_cpu_usage_total tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

pod_cpu_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Layanan, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Persentase CPU unit yang digunakan oleh pod relatif terhadap batas pod.

Rumus: pod_cpu_usage_total / pod_cpu_limit

catatan

pod_cpu_usage_total dan pod_cpu_limit tidak akan dilaporkan secara langsung sebagai metrik, tetapi sebagai bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

pod_memory_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

Persentase memori yang dicadangkan untuk pod.

Rumus: pod_memory_request / node_memory_limit

catatan

pod_memory_request tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

pod_memory_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Layanan, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Persentase memori yang saat ini sedang digunakan oleh satu pod atau banyak pod.

Rumus: pod_memory_working_set / node_memory_limit

catatan

pod_memory_working_set tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

pod_memory_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Layanan, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Persentase memori yang sedang digunakan oleh pod relatif terhadap batas pod. Jika ada kontainer di dalam pod yang tidak memiliki batas memori yang ditentukan, metrik ini tidak akan ditampilkan.

Rumus: pod_memory_working_set / pod_memory_limit

catatan

pod_memory_working_set tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

pod_network_rx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Layanan, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Jumlah byte per detik yang sedang diterima melalui jaringan oleh pod.

Rumus: sum(pod_interface_network_rx_bytes)

catatan

pod_interface_network_rx_bytes tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

pod_network_tx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Layanan, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Jumlah byte per detik yang sedang ditransmisikan melalui jaringan oleh pod.

Rumus: sum(pod_interface_network_tx_bytes)

catatan

pod_interface_network_tx_bytes tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

pod_cpu_request

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

CPUPermintaan untuk pod.

Rumus: sum(container_cpu_request)

catatan

pod_cpu_request tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

pod_memory_request

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Permintaan memori untuk pod.

Rumus: sum(container_memory_request)

catatan

pod_memory_request tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

pod_cpu_limit

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

CPUBatas yang ditentukan untuk kontainer di dalam pod. Jika ada kontainer di pod yang tidak memiliki CPU batas yang ditentukan, metrik ini tidak akan muncul.

Rumus: sum(container_cpu_limit)

catatan

pod_cpu_limit tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

pod_memory_limit

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Batas memori yang ditentukan untuk kontainer-kontainer yang ada dalam pod. Jika ada kontainer di dalam pod yang tidak memiliki batas memori yang ditentukan, metrik ini tidak akan ditampilkan.

Rumus: sum(container_memory_limit)

catatan

pod_cpu_limit tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

pod_status_failed

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Menunjukkan bahwa semua kontainer yang ada dalam pod telah dihentikan, dan setidaknya satu kontainer telah diakhiri dengan status bukan nol atau dihentikan oleh sistem.

pod_status_ready

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Menunjukkan bahwa semua kontainer yang ada dalam pod sudah siap, setelah mencapai kondisi ContainerReady.

pod_status_running

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Menunjukkan bahwa semua kontainer yang ada dalam pod sedang berjalan.

pod_status_scheduled

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Menunjukkan bahwa pod telah dijadwalkan untuk sebuah simpul.

pod_status_unknown

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Menunjukkan bahwa status pod tidak dapat diperoleh.

pod_status_pending

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Menunjukkan bahwa pod telah diterima oleh klaster tetapi satu atau beberapa kontainer belum siap.

pod_status_succeeded

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Menunjukkan bahwa semua kontainer yang ada dalam pod telah berhasil dihentikan dan tidak akan dimulai ulang.

pod_number_of_containers

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Melaporkan jumlah kontainer yang ditentukan dalam spesifikasi pod.

pod_number_of_running_containers

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Melaporkan jumlah kontainer yang ada dalam pod yang saat ini berada dalam status Running.

pod_container_status_terminated

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Melaporkan jumlah kontainer yang ada dalam pod yang berada dalam status Terminated.

pod_container_status_running

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Melaporkan jumlah kontainer yang ada dalam pod yang berada dalam status Running.

pod_container_status_waiting

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Melaporkan jumlah kontainer yang ada dalam pod yang berada dalam status Waiting.

pod_container_status_waiting_reason_crash_loop_back_off

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Melaporkan jumlah kontainer di pod yang tertunda karena CrashLoopBackOff kesalahan, di mana kontainer berulang kali gagal memulai.

pod_container_status_waiting_reason_create_container_config_error

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Melaporkan jumlah kontainer di pod yang tertunda dengan alasannyaCreateContainerConfigError. Ini karena kesalahan saat membuat konfigurasi kontainer.

pod_container_status_waiting_reason_create_container_error

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Melaporkan jumlah container di pod yang tertunda dengan alasan CreateContainerError karena kesalahan saat membuat container.

pod_container_status_waiting_reason_image_pull_error

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Melaporkan jumlah kontainer di pod yang tertunda karenaErrImagePull,ImagePullBackOff, atauInvalidImageName. Situasi ini karena kesalahan saat menarik gambar kontainer.

pod_container_status_waiting_reason_oom_killer

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Melaporkan jumlah kontainer di pod yang berada dalam Terminated status

karena kehabisan memori (OOMterbunuh).

pod_container_status_waiting_reason_start_error

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Melaporkan jumlah kontainer di pod yang tertunda dengan alasannya StartError karena kesalahan saat memulai penampung.

pod_interface_network_rx_dropped

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Jumlah paket yang diterima dan kemudian menghapus sebuah antarmuka jaringan untuk pod.

pod_interface_network_tx_dropped

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Jumlah paket yang seharusnya ditransmisikan tetapi dihapus untuk pod.

container_cpu_utilization

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Persentase CPU unit yang digunakan oleh kontainer.

Rumus: container_cpu_usage_total / node_cpu_limit

catatan

container_cpu_utilization tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

container_cpu_utilization_over_container_limit

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Persentase CPU unit yang digunakan oleh kontainer relatif terhadap batas kontainer. Jika wadah tidak memiliki CPU batas yang ditentukan, metrik ini tidak muncul.

Rumus: container_cpu_usage_total / container_cpu_limit

catatan

container_cpu_utilization_over_container_limit tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

container_memory_utilization

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Persentase unit memori yang sedang digunakan oleh kontainer.

Rumus: container_memory_working_set / node_memory_limit

catatan

container_memory_utilization tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

container_memory_utilization_over_container_limit

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Persentase unit memori yang sedang digunakan oleh kontainer relatif terhadap batas kontainer. Jika kontainer tidak memiliki batas memori yang ditentukan, maka metrik ini tidak akan ditampilkan.

Rumus: container_memory_working_set / container_memory_limit

catatan

container_memory_utilization_over_container_limit tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat Bidang yang relevan dalam peristiwa log kinerja untuk Amazon EKS dan Kubernetes.

container_memory_failures_total

Metrik ini hanya tersedia dengan Container Insights dengan peningkatan observabilitas untuk Amazon. EKS Ini tidak tersedia di Windows.

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Jumlah kegagalan alokasi memori yang dialami oleh kontainer.

pod_number_of_container_restarts

PodName, Namespace, ClusterName

Jumlah total kontainer yang memulai ulang di sebuah pod.

service_number_of_running_pods

Layanan, Namespace, ClusterName

ClusterName

Jumlah pod yang menjalankan satu layanan atau banyak layanan di klaster.

replicas_desired

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Jumlah pod yang dikehendaki untuk beban kerja sebagaimana yang ditentukan dalam spesifikasi beban kerja.

replicas_ready

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Jumlah pod untuk sebuah beban kerja yang telah mencapai status siap.

status_replicas_available

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Jumlah pod untuk sebuah beban kerja yang tersedia. Sebuah pod yang tersedia ketika sudah siap untuk minReadySeconds yang ditentukan dalam spesifikasi beban kerja.

status_replicas_unavailable

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Jumlah pod untuk sebuah beban kerja yang tidak tersedia. Sebuah pod yang tersedia ketika sudah siap untuk minReadySeconds yang ditentukan dalam spesifikasi beban kerja. Pod tidak tersedia jika pod tersebut belum memenuhi kriteria ini.

apiserver_storage_objects

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, resource

Jumlah objek yang disimpan di etcd pada saat pemeriksaan terakhir.

apiserver_request_total

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, code, verb

Jumlah total API permintaan ke server KubernetesAPI.

apiserver_request_duration_seconds

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, verb

Tanggapi latensi untuk API permintaan ke server API Kubernetes.

apiserver_admission_controller_admission_duration_seconds

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, operation

Latensi pengendali penerimaan, dalam satuan detik. Admission controller adalah kode yang mencegat permintaan ke server API Kubernetes.

rest_client_request_duration_seconds

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, operation

Leponse latency yang dialami oleh klien yang memanggil server Kubernetes. API Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang.

rest_client_requests_total

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, code, method

Jumlah total API permintaan ke API server Kubernetes yang dibuat oleh klien. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang.

etcd_request_duration_seconds

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, operation

Latensi respons API panggilan ke Etcd. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang.

apiserver_storage_size_bytes

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, endpoint

Ukuran file basis data penyimpanan yang dialokasikan secara fisik, dalam satuan byte. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang.

apiserver_longrunning_requests

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, resource

Jumlah permintaan aktif yang berjalan lama ke server API Kubernetes.

apiserver_current_inflight_requests

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, request_kind

Jumlah permintaan yang sedang diproses oleh server KubernetesAPI.

apiserver_admission_webhook_admission_duration_seconds

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, name

Latensi webhook penerimaan, dalam satuan detik. Webhook masuk adalah HTTP callback yang menerima permintaan masuk dan melakukan sesuatu dengannya.

apiserver_admission_step_admission_duration_seconds

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, operation

Latensi sub-langkah penerimaan, dalam satuan detik.

apiserver_requested_deprecated_apis

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, group

Jumlah permintaan yang tidak digunakan lagi di server APIs Kubernetes. API

apiserver_request_total_5XX

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, code, verb

Jumlah permintaan ke API server Kubernetes yang direspon dengan kode respons 5XX. HTTP

apiserver_storage_list_duration_seconds

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, resource

Latensi respons objek daftar dari Etcd. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang.

apiserver_current_inqueue_requests

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, request_kind

Nomor antrian permintaan antri oleh server Kubernetes. API Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang.

apiserver_flowcontrol_rejected_requests_total

Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS

ClusterName

ClusterName, reason

Jumlah permintaan yang ditolak oleh API subsistem Prioritas dan Keadilan Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang.

NVIDIAGPUmetrik

Dimulai dengan 1.300034.0 versi CloudWatch agen, Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS mengumpulkan NVIDIA GPU metrik dari EKS beban kerja secara default. CloudWatch Agen harus diinstal menggunakan versi EKS add-on CloudWatch Observability v1.3.0-eksbuild.1 atau yang lebih baru. Untuk informasi selengkapnya, lihat Instal CloudWatch agen dengan EKS add-on Amazon CloudWatch Observability atau bagan Helm. NVIDIAGPUMetrik yang dikumpulkan ini tercantum dalam tabel di bagian ini.

Agar Container Insights dapat mengumpulkan NVIDIA GPU metrik, Anda harus memenuhi prasyarat berikut:

  • Anda harus menggunakan Wawasan Kontainer dengan kemampuan observasi yang ditingkatkan untuk AmazonEKS, dengan versi EKS add-on Amazon CloudWatch Observability atau yang lebih baru. v1.3.0-eksbuild.1

  • Plugin NVIDIA perangkat untuk Kubernetes harus diinstal di cluster.

  • Toolkit NVIDIA kontainer harus diinstal pada node cluster. Misalnya, akselerasi Amazon AMIs yang EKS dioptimalkan dibangun dengan komponen yang diperlukan.

Anda dapat memilih untuk tidak mengumpulkan NVIDIA GPU metrik dengan menyetel accelerated_compute_metrics opsi di file konfigurasi CloudWatch agen beginn. false Untuk informasi selengkapnya dan contoh konfigurasi opt-out, lihat. (Opsional) Konfigurasi tambahan

Nama metrik Dimensi Deskripsi

container_gpu_memory_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Ukuran buffer frame total, dalam byte, pada GPU (s) yang dialokasikan ke wadah.

container_gpu_memory_used

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Byte frame buffer yang digunakan pada GPU (s) dialokasikan ke wadah.

container_gpu_memory_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Persentase buffer bingkai yang digunakan dari GPU (s) yang dialokasikan ke wadah.

container_gpu_power_draw

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Penggunaan daya dalam watt dari GPU (s) dialokasikan ke wadah.

container_gpu_temperature

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Suhu dalam derajat celcius dari GPU (s) yang dialokasikan ke wadah.

container_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Persentase pemanfaatan GPU (s) yang dialokasikan ke wadah.

node_gpu_memory_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Ukuran buffer frame total, dalam byte, pada GPU (s) yang dialokasikan ke node.

node_gpu_memory_used

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Byte frame buffer yang digunakan pada GPU (s) dialokasikan ke node.

node_gpu_memory_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Persentase frame buffer yang digunakan pada GPU (s) dialokasikan ke node.

node_gpu_power_draw

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Penggunaan daya dalam watt dari GPU (s) dialokasikan ke node.

node_gpu_temperature

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Suhu dalam derajat celcius dari GPU (s) dialokasikan ke node.

node_gpu_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Persentase pemanfaatan GPU (s) yang dialokasikan ke node.

pod_gpu_memory_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Ukuran buffer frame total, dalam byte, pada GPU (s) yang dialokasikan ke pod.

pod_gpu_memory_used

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Byte frame buffer yang digunakan pada GPU (s) yang dialokasikan ke pod.

pod_gpu_memory_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Persentase buffer frame yang digunakan dari GPU (s) yang dialokasikan ke pod.

pod_gpu_power_draw

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Penggunaan daya dalam watt yang GPU dialokasikan ke pod.

pod_gpu_temperature

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Suhu dalam derajat celcius dari GPU (s) yang dialokasikan ke polong.

pod_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Persentase pemanfaatan GPU (s) yang dialokasikan ke pod.

AWS Metrik neuron untuk AWS Trainium dan Inferensia AWS

Dimulai dengan versi 1.300036.0 CloudWatch agen, Container Insights dengan observabilitas yang ditingkatkan untuk Amazon EKS mengumpulkan metrik komputasi yang dipercepat dari akselerator AWS Trainium dan AWS Inferentia secara default. CloudWatch Agen harus diinstal menggunakan versi EKS add-on CloudWatch Observability v1.5.0-eksbuild.1 atau yang lebih baru. Untuk informasi selengkapnya tentang add-on, lihatInstal CloudWatch agen dengan EKS add-on Amazon CloudWatch Observability atau bagan Helm. Untuk informasi lebih lanjut tentang AWS Trainium, lihat AWS Trainium. Untuk informasi lebih lanjut tentang AWS Inferensia, lihat AWS Inferensia.

Agar Container Insights dapat mengumpulkan metrik AWS Neuron, Anda harus memenuhi prasyarat berikut:

  • Anda harus menggunakan Wawasan Kontainer dengan kemampuan observasi yang ditingkatkan untuk AmazonEKS, dengan versi EKS add-on Amazon CloudWatch Observability atau yang lebih baru. v1.5.0-eksbuild.1

  • Driver Neuron harus diinstal pada node cluster.

  • Plugin perangkat Neuron harus diinstal pada cluster. Misalnya, akselerasi Amazon AMIs yang EKS dioptimalkan dibangun dengan komponen yang diperlukan.

Metrik yang dikumpulkan tercantum dalam tabel di bagian ini. Metrik dikumpulkan untuk AWS Trainium, AWS Inferentia, dan Inferentia2. AWS

CloudWatch Agen mengumpulkan metrik ini dari monitor Neuron dan melakukan korelasi sumber daya Kubernetes yang diperlukan untuk mengirimkan metrik di tingkat pod dan kontainer

Nama metrik Dimensi Deskripsi

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

NeuronCore pemanfaatan, selama periode ditangkap NeuronCore dialokasikan ke wadah.

Unit: Persen

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk konstanta selama pelatihan oleh NeuronCore yang dialokasikan ke wadah (atau bobot selama inferensi).

Unit: Bita

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk kode yang dapat dieksekusi model oleh NeuronCore yang dialokasikan ke wadah.

Unit: Bita

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk scratchpad yang dibagi dari model oleh NeuronCore yang dialokasikan ke wadah. Wilayah memori ini dicadangkan untuk model.

Unit: Bita

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk runtime Neuron oleh NeuronCore dialokasikan ke wadah.

Unit: Bita

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk tensor oleh NeuronCore dialokasikan ke wadah.

Unit: Bita

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Jumlah total memori yang digunakan oleh NeuronCore dialokasikan ke wadah.

Unit: Bita

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

Jumlah ECC peristiwa yang dikoreksi dan tidak dikoreksi untuk on-chip SRAM dan memori perangkat perangkat Neuron pada node.

Unit: Jumlah

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

NeuronCore Pemanfaatan selama periode yang ditangkap dari NeuronCore dialokasikan ke pod.

Unit: Persen

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk konstanta selama pelatihan oleh NeuronCore yang dialokasikan ke pod (atau bobot selama inferensi).

Unit: Bita

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk kode executable model oleh NeuronCore yang dialokasikan ke pod.

Unit: Bita

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk scratchpad yang dibagi dari model oleh NeuronCore yang dialokasikan ke pod. Wilayah memori ini dicadangkan untuk model.

Unit: Bita

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk runtime Neuron oleh NeuronCore dialokasikan ke pod.

Unit: Bita

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk tensor oleh NeuronCore dialokasikan ke pod.

Unit: Bita

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Jumlah total memori yang digunakan oleh NeuronCore dialokasikan ke pod.

Unit: Bita

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

Jumlah ECC peristiwa yang dikoreksi dan tidak dikoreksi untuk on-chip SRAM dan memori perangkat perangkat Neuron yang dialokasikan ke pod.

Unit: Bita

node_neuroncore_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

NeuronCore Pemanfaatan selama periode yang ditangkap dari NeuronCore dialokasikan ke node.

Unit: Persen

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk konstanta selama pelatihan oleh NeuronCore yang dialokasikan ke node (atau bobot selama inferensi).

Unit: Bita

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk kode executable model oleh NeuronCore yang dialokasikan ke node.

Unit: Bita

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk scratchpad yang dibagikan dari model oleh NeuronCore yang dialokasikan ke node. Ini adalah wilayah memori yang disediakan untuk model.

Unit: Bita

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk runtime Neuron oleh NeuronCore yang dialokasikan ke node.

Unit: Bita

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Jumlah memori perangkat yang digunakan untuk tensor oleh NeuronCore yang dialokasikan ke node.

Unit: Bita

node_neuroncore_memory_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Jumlah total memori yang digunakan oleh NeuronCore yang dialokasikan ke node.

Unit: Bita

node_neuron_execution_errors_total

ClusterName

ClusterName, InstanceId, NodeName

Jumlah total kesalahan eksekusi pada node. Ini dihitung oleh CloudWatch agen dengan menggabungkan kesalahan dari jenis berikut:generic,,,numerical, transientmodel, runtime dan hardware

Unit: Jumlah

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, InstanceId, NodeName

Total penggunaan memori perangkat Neuron dalam byte pada node.

Unit: Bita

node_neuron_execution_latency

ClusterName

ClusterName, InstanceId, NodeName

Dalam hitungan detik, latensi untuk eksekusi pada node diukur dengan runtime Neuron.

Unit: Detik

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

Jumlah ECC peristiwa yang dikoreksi dan tidak dikoreksi untuk on-chip SRAM dan memori perangkat perangkat Neuron pada node.

Unit: Jumlah

AWS Metrik Adaptor Kain Elastis (EFA)

Dimulai dengan versi 1.300037.0 CloudWatch agen, Container Insights dengan kemampuan observasi yang disempurnakan untuk Amazon EKS mengumpulkan metrik AWS Elastic Fabric Adapter (EFA) dari cluster EKS Amazon di instans Linux. CloudWatch Agen harus diinstal menggunakan versi EKS add-on CloudWatch Observability v1.5.2-eksbuild.1 atau yang lebih baru. Untuk informasi selengkapnya tentang add-on, lihatInstal CloudWatch agen dengan EKS add-on Amazon CloudWatch Observability atau bagan Helm. Untuk informasi lebih lanjut tentang Adaptor Kain AWS Elastis, lihat Adaptor Kain Elastis.

Agar Container Insights mengumpulkan metrik adaptor Kain AWS Elastis, Anda harus memenuhi prasyarat berikut:

  • Anda harus menggunakan Wawasan Kontainer dengan kemampuan observasi yang ditingkatkan untuk AmazonEKS, dengan versi EKS add-on Amazon CloudWatch Observability atau yang lebih baru. v1.5.2-eksbuild.1

  • Plugin EFA perangkat harus diinstal pada cluster. Untuk informasi lebih lanjut, lihat aws-efa-k8 s-device-plugin di GitHub.

Metrik yang dikumpulkan tercantum dalam tabel berikut.

Nama metrik Dimensi Deskripsi

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Jumlah byte per detik yang diterima oleh EFA perangkat yang dialokasikan ke wadah.

Satuan: Byte/Detik

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Jumlah byte per detik yang ditransmisikan oleh EFA perangkat yang dialokasikan ke wadah.

Satuan: Byte/Detik

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Jumlah paket yang diterima dan kemudian dijatuhkan oleh EFA perangkat yang dialokasikan ke wadah.

Satuan: Hitung/Detik

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Jumlah byte per detik yang diterima menggunakan operasi baca akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke wadah.

Satuan: Byte/Detik

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Jumlah byte per detik yang ditransmisikan menggunakan operasi baca akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke wadah.

Satuan: Byte/Detik

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Jumlah byte per detik yang diterima selama operasi penulisan akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke wadah.

Satuan: Byte/Detik

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Jumlah byte per detik yang diterima oleh EFA perangkat yang dialokasikan ke pod.

Satuan: Byte/Detik

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Jumlah byte per detik yang ditransmisikan oleh EFA perangkat yang dialokasikan ke pod.

Satuan: Byte/Detik

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Jumlah paket yang diterima dan kemudian dijatuhkan oleh EFA perangkat yang dialokasikan ke pod.

Satuan: Hitung/Detik

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Jumlah byte per detik yang diterima menggunakan operasi baca akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke pod.

Satuan: Byte/Detik

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Jumlah byte per detik yang ditransmisikan menggunakan operasi baca akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke pod.

Satuan: Byte/Detik

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Jumlah byte per detik yang diterima selama operasi penulisan akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke pod.

Satuan: Byte/Detik

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Jumlah byte per detik yang diterima oleh EFA perangkat yang dialokasikan ke node.

Satuan: Byte/Detik

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Jumlah byte per detik yang ditransmisikan oleh EFA perangkat yang dialokasikan ke node.

Satuan: Byte/Detik

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Jumlah paket yang diterima dan kemudian dijatuhkan oleh EFA perangkat yang dialokasikan ke node.

Satuan: Hitung/Detik

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Jumlah byte per detik yang diterima menggunakan operasi baca akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke node.

Satuan: Byte/Detik

pod_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Jumlah byte per detik yang ditransmisikan menggunakan operasi baca akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke pod.

Satuan: Byte/Detik

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Jumlah byte per detik yang diterima selama operasi penulisan akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke node.

Satuan: Byte/Detik

Amazon SageMaker HyperPod metrik

Dimulai dengan versi v2.0.1-eksbuild.1 EKS add-on CloudWatch Observability, Container Insights dengan observabilitas yang disempurnakan untuk Amazon secara otomatis Amazon SageMaker HyperPod mengumpulkan metrik dari klaster EKS Amazon. EKS Untuk informasi selengkapnya tentang add-on, lihatInstal CloudWatch agen dengan EKS add-on Amazon CloudWatch Observability atau bagan Helm. Untuk informasi lebih lanjut tentang Amazon SageMaker HyperPod, lihat Amazon SageMaker HyperPod.

Metrik yang dikumpulkan tercantum dalam tabel berikut.

Nama metrik Dimensi Deskripsi

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

Menunjukkan jika sebuah node diberi label sebagai Unschedulable oleh Amazon SageMaker HyperPod. Ini berarti bahwa node menjalankan pemeriksaan kesehatan mendalam dan tidak tersedia untuk menjalankan beban kerja.

Unit: Jumlah

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

Menunjukkan jika sebuah node diberi label sebagai Schedulable oleh Amazon SageMaker HyperPod. Ini berarti bahwa node telah lulus pemeriksaan kesehatan dasar atau pemeriksaan kesehatan mendalam dan tersedia untuk menjalankan beban kerja.

Unit: Jumlah

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

Menunjukkan jika sebuah node diberi label sebagai UnschedulablePendingReplacement oleh HyperPod. Ini berarti bahwa node telah gagal dalam pemeriksaan kesehatan atau pemeriksaan agen pemantauan kesehatan dan memerlukan penggantian.

Jika pemulihan node otomatis diaktifkan, node akan secara otomatis diganti oleh Amazon SageMaker HyperPod.

Unit: Jumlah

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

Menunjukkan jika sebuah node diberi label sebagai UnschedulablePendingReboot oleh Amazon SageMaker HyperPod. Ini berarti bahwa node menjalankan pemeriksaan kesehatan mendalam dan memerlukan reboot.

Jika pemulihan node otomatis diaktifkan, node akan secara otomatis reboot oleh. Amazon SageMaker HyperPod

Unit: Jumlah