Amazon EKS 및 Kubernetes Container Insights 지표 - Amazon CloudWatch

Amazon EKS 및 Kubernetes Container Insights 지표

아래 표에는 Container Insights가 Amazon EKS 및 쿠버네티스용으로 수집하는 지표 및 측정 기준이 나와 있습니다. 이러한 지표는 ContainerInsights 네임스페이스에 있습니다. 자세한 내용은 지표 단원을 참조하십시오.

콘솔에 Container Insights 지표가 보이지 않는 경우, Container Insights 설정을 완료했는지 확인합니다. Container Insights 설정이 완료되기 전에는 지표가 나타나지 않습니다. 자세한 내용은 Container Insights 설정 단원을 참조하십시오.

Amazon EKS 추가 기능 버전 1.5.0 이상 또는 CloudWatch 에이전트 버전 1.300035.0을 사용 중인 경우 다음 표에 나열된 대부분의 지표가 Linux와 Windows 노드 모두에 대해 수집됩니다. 표의 지표 이름 열을 참조하여 Windows에서 수집되지 않는 지표를 확인하세요.

Container Insights의 원래 버전에서 지표는 사용자 지정 지표로 청구됩니다. Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용하면 Container Insights 지표는 저장된 지표나 수집된 로그별로 요금이 부과되는 대신 관찰당 요금이 부과됩니다. CloudWatch 요금에 대한 자세한 내용은 Amazon CloudWatch 요금을 참조하세요.

참고

Windows에서는 호스트 프로세스 컨테이너에 대해 pod_network_rx_bytespod_network_tx_bytes 등의 네트워크 지표는 수집되지 않습니다.

지표 이름 모든 버전의 Container Insights를 사용한 측정 기준 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights의 추가 측정 기준 설명

cluster_failed_node_count

ClusterName

클러스터의 실패한 작업자 노드의 숫자입니다. ‘노드 조건’ 문제를 겪고 있는 경우 노드가 실패한 것으로 간주됩니다. 자세한 내용은 Kubernetes 설명서에서 조건을 참조하세요.

cluster_node_count

ClusterName

클러스터의 작업자 노드의 총 숫자입니다.

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

사용 중인 측정기준에서 지정한 리소스의 네임스페이스당 실행 중인 Pod 숫자입니다.

node_cpu_limit

ClusterName

ClusterName, InstanceId, NodeName

클러스터에서 단일 노드에 할당할 수 있는 최대 CPU 단위 숫자입니다.

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

kubelet, kube-proxy, Docker 등 노드 구성 요소에 예약된 CPU 단위의 비율입니다.

공식: node_cpu_request / node_cpu_limit

참고

node_cpu_request는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

node_cpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

클러스터의 노드에서 사용 중인 CPU 단위의 숫자입니다.

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

클러스터의 노드에서 사용 중인 CPU 단위의 총 백분율입니다.

공식: node_cpu_usage_total / node_cpu_limit

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

클러스터에서 노드에 사용하는 파일 시스템 용량의 총 백분율입니다.

공식: node_filesystem_usage / node_filesystem_capacity

참고

node_filesystem_usagenode_filesystem_capacity는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

node_memory_limit

ClusterName

ClusterName, InstanceId, NodeName

클러스터에서 단일 노드로 할당될 수 있는 최대 메모리의 양(바이트)입니다.

node_filesystem_inodes

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다. Windows에서는 제공되지 않습니다.

ClusterName

ClusterName, InstanceId, NodeName

노드의 총 아이노드(사용 및 미사용) 수입니다.

node_filesystem_inodes_free

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다. Windows에서는 제공되지 않습니다.

ClusterName

ClusterName, InstanceId, NodeName

노드의 미사용 아이노드 수입니다.

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

클러스터의 노드에서 현재 사용 중인 메모리의 비율입니다.

공식: node_memory_request / node_memory_limit

참고

node_memory_request는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

한 개 또는 여러 개의 노드에서 현재 사용 중인 메모리의 비율입니다. 노드 메모리 사용량을 노드 메모리 제한으로 나눈 백분율입니다.

공식: node_memory_working_set / node_memory_limit입니다.

node_memory_working_set

ClusterName

ClusterName, InstanceId, NodeName

클러스터의 노드 작업 세트에서 사용하는 메모리의 양(바이트)입니다.

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

클러스터에서 노드당 네트워크를 통해 전송 및 수신된 초당 바이트의 합계 수치입니다.

공식: node_network_rx_bytes + node_network_tx_bytes

참고

node_network_rx_bytesnode_network_tx_bytes는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

클러스터에서 노드당 실행 중인 컨테이너의 숫자입니다.

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

클러스터에서 노드당 실행 중인 Pod 숫자입니다.

node_status_allocatable_pods

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, InstanceId, NodeName

할당 가능한 리소스를 기준으로 노드에 할당할 수 있는 포드 수이며 이는 시스템 대몬(daemon) 예약 및 하드 제거 임곗값을 고려한 후 노드 용량의 나머지 부분으로 정의됩니다.

node_status_capacity_pods

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, InstanceId, NodeName

용량에 따라 노드에 할당할 수 있는 포드 수입니다.

node_status_condition_ready

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, InstanceId, NodeName

노드 상태 조건 Ready가 Amazon EC2 노드에 대해 참인지 여부를 나타냅니다.

node_status_condition_memory_pressure

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, InstanceId, NodeName

노드 상태 조건 MemoryPressure이 참인지 여부를 나타냅니다.

node_status_condition_pid_pressure

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, InstanceId, NodeName

노드 상태 조건 PIDPressure이 참인지 여부를 나타냅니다.

node_status_condition_disk_pressure

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, InstanceId, NodeName

노드 상태 조건 OutOfDisk이 참인지 여부를 나타냅니다.

node_status_condition_unknown

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, InstanceId, NodeName

노드 상태 조건 중 알 수 없는 상태가 있는지 여부를 나타냅니다.

node_interface_network_rx_dropped

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, InstanceId, NodeName

노드의 네트워크 인터페이스에서 수신한 후 삭제한 패킷 수입니다.

node_interface_network_tx_dropped

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, InstanceId, NodeName

전송될 예정이었으나 노드의 네트워크 인터페이스에서 삭제된 패킷 수입니다.

node_diskio_io_service_bytes_total

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다. Windows에서는 제공되지 않습니다.

ClusterName

ClusterName, InstanceId, NodeName

노드의 모든 I/O 작업에서 전송된 총 바이트 수입니다.

node_diskio_io_serviced_total

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다. Windows에서는 제공되지 않습니다.

ClusterName

ClusterName, InstanceId, NodeName

노드의 총 I/O 작업 횟수입니다.

pod_cpu_reserved_capacity

PodName, 네임스페이스, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

클러스터에서 Pod별로 예약된 CPU 용량입니다.

공식: pod_cpu_request / node_cpu_limit

참고

pod_cpu_request는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

pod_cpu_utilization

PodName, 네임스페이스, ClusterName

네임스페이스, ClusterName

서비스, 네임스페이스, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod에서 사용 중인 CPU 단위의 비율입니다.

공식: pod_cpu_usage_total / node_cpu_limit

참고

pod_cpu_usage_total는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

pod_cpu_utilization_over_pod_limit

PodName, 네임스페이스, ClusterName

네임스페이스, ClusterName

서비스, 네임스페이스, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

포드 제한을 기준으로 포드에서 사용 중인 CPU 단위의 백분율입니다.

공식: pod_cpu_usage_total / pod_cpu_limit

참고

pod_cpu_usage_totalpod_cpu_limit는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

pod_memory_reserved_capacity

PodName, 네임스페이스, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

포드에 예약된 메모리의 비율입니다.

공식: pod_memory_request / node_memory_limit

참고

pod_memory_request는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

pod_memory_utilization

PodName, 네임스페이스, ClusterName

네임스페이스, ClusterName

서비스, 네임스페이스, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

한 개 또는 여러 개의 Pod에서 현재 사용 중인 메모리의 비율입니다.

공식: pod_memory_working_set / node_memory_limit

참고

pod_memory_working_set는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

pod_memory_utilization_over_pod_limit

PodName, 네임스페이스, ClusterName

네임스페이스, ClusterName

서비스, 네임스페이스, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

포드 제한을 기준으로 포드에서 사용 중인 메모리의 백분율입니다. 포드의 컨테이너에 메모리 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다.

공식: pod_memory_working_set / pod_memory_limit

참고

pod_memory_working_set는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

pod_network_rx_bytes

PodName, 네임스페이스, ClusterName

네임스페이스, ClusterName

서비스, 네임스페이스, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod에서 네트워크를 통해 수신 중인 초당 바이트 수입니다.

공식: sum(pod_interface_network_rx_bytes)

참고

pod_interface_network_rx_bytes는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

pod_network_tx_bytes

PodName, 네임스페이스, ClusterName

네임스페이스, ClusterName

서비스, 네임스페이스, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod에서 네트워크를 통해 전송 중인 초당 바이트 수입니다.

공식: sum(pod_interface_network_tx_bytes)

참고

pod_interface_network_tx_bytes는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

pod_cpu_request

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드에 대한 CPU 요청입니다.

공식: sum(container_cpu_request)

참고

pod_cpu_request는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

pod_memory_request

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드에 대한 메모리 요청량입니다.

공식: sum(container_memory_request)

참고

pod_memory_request는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

pod_cpu_limit

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드의 컨테이너에 대해 정의된 CPU 한도입니다. 포드의 컨테이너에 CPU 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다.

공식: sum(container_cpu_limit)

참고

pod_cpu_limit는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

pod_memory_limit

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드의 컨테이너에 대해 정의된 메모리 한도입니다. 포드의 컨테이너에 메모리 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다.

공식: sum(container_memory_limit)

참고

pod_cpu_limit는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

pod_status_failed

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드의 모든 컨테이너가 종료되었으며, 하나 이상의 컨테이너가 0이 아닌 상태로 종료되었거나 시스템에 의해 종료되었음을 나타냅니다.

pod_status_ready

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드의 모든 컨테이너가 ContainerReady 조건에 도달하여 준비가 완료되었음을 나타냅니다.

pod_status_running

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드의 모든 컨테이너가 실행 중임을 나타냅니다.

pod_status_scheduled

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드가 노드에 예약되었음을 나타냅니다.

pod_status_unknown

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드의 상태를 가져올 수 없음을 나타냅니다.

pod_status_pending

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

클러스터에서 포드를 수락했지만 하나 이상의 컨테이너가 아직 준비되지 않았음을 나타냅니다.

pod_status_succeeded

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드의 모든 컨테이너가 성공적으로 종료되었으며 다시 시작되지 않음을 나타냅니다.

pod_number_of_containers

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드 사양에 정의된 컨테이너 수를 보고합니다.

pod_number_of_running_containers

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

현재 Running 상태에 있는 포드 내 컨테이너 수를 보고합니다.

pod_container_status_terminated

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드에서 Terminated 상태에 있는 컨테이너 수를 보고합니다.

pod_container_status_running

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드에서 Running 상태에 있는 컨테이너 수를 보고합니다.

pod_container_status_waiting

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드에서 Waiting 상태에 있는 컨테이너 수를 보고합니다.

pod_container_status_waiting_reason_crash_loop_back_off

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

컨테이너가 반복적으로 시작에 실패하는 CrashLoopBackOff 오류로 인해 보류 중인 포드의 컨테이너 수를 보고합니다.

pod_container_status_waiting_reason_create_container_config_error

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

사유 CreateContainerConfigError로 보류 중인 포드의 컨테이너 수를 보고합니다. 이는 컨테이너 구성을 생성하는 동안 오류가 발생했기 때문입니다.

pod_container_status_waiting_reason_create_container_error

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

컨테이너 생성 중 발생한 오류 때문에 사유 CreateContainerError로 보류 중인 포드의 컨테이너 수를 보고합니다.

pod_container_status_waiting_reason_image_pull_error

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ErrImagePull, ImagePullBackOff 또는 InvalidImageName 때문에 보류 중인 포드의 컨테이너 수를 보고합니다. 이러한 상황은 컨테이너 이미지를 가져오는 중 오류로 인해 발생합니다.

pod_container_status_waiting_reason_oom_killer

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

메모리 부족(OOM 종료)으로 인해 포드에서 Terminated 상태에 있는

컨테이너 수를 보고합니다.

pod_container_status_waiting_reason_start_error

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

컨테이너 시작 중 발생한 오류 때문에 사유 StartError로 보류 중인 포드의 컨테이너 수를 보고합니다.

pod_interface_network_rx_dropped

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

포드의 네트워크 인터페이스에서 수신된 후 삭제된 패킷 수입니다.

pod_interface_network_tx_dropped

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

전송될 예정이었으나 포드에서 삭제된 패킷 수입니다.

container_cpu_utilization

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

컨테이너에서 사용 중인 CPU 단위의 비율입니다.

공식: container_cpu_usage_total / node_cpu_limit

참고

container_cpu_utilization는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

container_cpu_utilization_over_container_limit

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

컨테이너 제한을 기준으로 컨테이너에서 사용 중인 CPU 단위의 비율입니다. 컨테이너에 CPU 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다.

공식: container_cpu_usage_total / container_cpu_limit

참고

container_cpu_utilization_over_container_limit는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

container_memory_utilization

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

컨테이너에서 사용 중인 메모리 단위의 비율입니다.

공식: container_memory_working_set / node_memory_limit

참고

container_memory_utilization는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

container_memory_utilization_over_container_limit

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

컨테이너 제한을 기준으로 컨테이너에서 사용 중인 메모리 단위의 비율입니다. 컨테이너에 메모리 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다.

공식: container_memory_working_set / container_memory_limit

참고

container_memory_utilization_over_container_limit는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 단원을 참조하십시오.

container_memory_failures_total

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다. Windows에서는 제공되지 않습니다.

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

컨테이너에서 발생한 메모리 할당 실패 횟수입니다.

pod_number_of_container_restarts

PodName, Namespace, ClusterName

Pod의 컨테이너 재시작 총 횟수입니다.

service_number_of_running_pods

서비스, Namespace, ClusterName

ClusterName

클러스터에서 단일 또는 복수의 서비스를 실행하는 Pod의 숫자입니다.

replicas_desired

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

워크로드 사양에 정의된 워크로드에 필요한 포드 수입니다.

replicas_ready

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

준비 상태에 도달한 워크로드의 포드 수입니다.

status_replicas_available

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

워크로드에 사용할 수 있는 포드 수입니다. 워크로드 사양에 정의된 대로 minReadySeconds 준비가 되면 포드를 사용할 수 있습니다.

status_replicas_unavailable

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

PodName, Namespace, ClusterName

사용할 수 없는 워크로드의 포드 수입니다. 워크로드 사양에 정의된 대로 minReadySeconds 준비가 되면 포드를 사용할 수 있습니다. 이 기준을 충족하지 않으면 포드를 사용할 수 없습니다.

apiserver_storage_objects

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, resource

마지막 확인 당시 etcd에 저장된 객체 수입니다.

apiserver_request_total

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, code, verb

Kubernetes API 서버에 대한 총 API 요청 수입니다.

apiserver_request_duration_seconds

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, verb

Kubernetes API 서버에 대한 API 요청의 응답 지연 시간입니다.

apiserver_admission_controller_admission_duration_seconds

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, operation

승인 컨트롤러 지연 시간(초)입니다. 승인 컨트롤러는 Kubernetes API 서버에 대한 요청을 가로채는 코드입니다.

rest_client_request_duration_seconds

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, operation

Kubernetes API 서버를 호출하는 클라이언트가 경험한 응답 지연 시간입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다.

rest_client_requests_total

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, code, method

클라이언트가 Kubernetes API 서버에 요청한 총 API 요청 수입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다.

etcd_request_duration_seconds

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, operation

Etcd에 대한 API 호출의 응답 지연 시간입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다.

apiserver_storage_size_bytes

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, endpoint

물리적으로 할당된 스토리지 데이터베이스 파일의 크기(바이트)입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다.

apiserver_longrunning_requests

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, resource

Kubernetes API 서버에 대한 활성 장기 실행 요청 수입니다.

apiserver_current_inflight_requests

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, request_kind

Kubernetes API 서버에서 처리 중인 요청 수입니다.

apiserver_admission_webhook_admission_duration_seconds

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, name

승인 웹후크 지연 시간(초)입니다. 승인 웹후크는 승인 요청을 수신하고 이를 이용해 무언가를 수행하는 HTTP 콜백입니다.

apiserver_admission_step_admission_duration_seconds

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, operation

승인 하위 단계 지연 시간(초)입니다.

apiserver_requested_deprecated_apis

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, group

Kubernetes API 서버에서 더 이상 사용되지 않는 API에 대한 요청 수입니다.

apiserver_request_total_5XX

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, code, verb

Kubernetes API 서버에 대한 요청 중 5XX HTTP 응답 코드로 응답한 요청 수입니다.

apiserver_storage_list_duration_seconds

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, resource

Etcd의 객체를 나열하는 응답 지연 시간입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다.

apiserver_current_inqueue_requests

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, request_kind

Kubernetes API 서버에서 대기열에 있는 요청 수입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다.

apiserver_flowcontrol_rejected_requests_total

이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다

ClusterName

ClusterName, reason

API 우선순위 및 공정성 하위 시스템에서 거부한 요청 수입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다.

NVIDIA GPU 지표

Amazon EKS의 향상된 관찰성을 사용하여 CloudWatch 에이전트 버전 1.300034.0부터 Container Insights는 기본적으로 EKS 워크로드에서 NVIDIA GPU 지표를 수집합니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability EKS 추가 기능 버전 v1.3.0-eksbuild.1 이상을 사용해야 합니다. 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 단원을 참조하십시오. 이렇게 수집된 NVIDIA GPU 지표는 이 섹션의 표에 나열되어 있습니다.

Container Insights로 NVIDIA GPU 지표를 수집하려면 다음 사전 요구 사항을 충족해야 합니다.

CloudWatch 에이전트 구성 파일 처음의 accelerated_compute_metrics 옵션을 false로 설정하여 NVIDIA GPU 지표 수집을 옵트아웃할 수 있습니다. 자세한 내용과 옵트아웃 예시는 (선택 사항) 추가 구성 단원을 참조하십시오.

지표 이름 측정기준 설명

container_gpu_memory_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

컨테이너에 할당된 GPU의 총 프레임 버퍼 바이트 규모.

container_gpu_memory_used

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

컨테이너에 할당된 GPU에서 사용된 프레임 버퍼의 바이트.

container_gpu_memory_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

컨테이너에 할당된 GPU의 프레임 버퍼 사용률.

container_gpu_power_draw

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

컨테이너에 할당된 GPU의 전력 와트 사용량.

container_gpu_temperature

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

컨테이너에 할당된 GPU의 섭씨 온도.

container_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

컨테이너에 할당된 GPU의 활용률.

node_gpu_memory_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

노드에 할당된 GPU의 총 프레임 버퍼 바이트 규모.

node_gpu_memory_used

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

노드에 할당된 GPU에서 사용된 프레임 버퍼의 바이트.

node_gpu_memory_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

노드에 할당된 GPU의 프레임 버퍼 사용률.

node_gpu_power_draw

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

노드에 할당된 GPU의 전력 와트 사용량.

node_gpu_temperature

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

노드에 할당된 GPU의 섭씨 온도.

node_gpu_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

노드에 할당된 GPU의 활용률.

pod_gpu_memory_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

포드에 할당된 GPU의 총 프레임 버퍼 바이트 규모.

pod_gpu_memory_used

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

포드에 할당된 GPU에서 사용된 프레임 버퍼의 바이트.

pod_gpu_memory_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

포드에 할당된 GPU의 프레임 버퍼 사용률.

pod_gpu_power_draw

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

포드에 할당된 GPU의 전력 와트 사용량.

pod_gpu_temperature

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

포드에 할당된 GPU의 섭씨 온도.

pod_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

포드에 할당된 GPU의 활용률.

AWS Trainium 및 AWS Inferentia의 AWS Neuron 지표

CloudWatch 에이전트의 1.300036.0 버전부터 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights는 기본적으로 AWS Trainium 및 AWS Inferentia 액셀러레이터로부터 가속화된 컴퓨팅 지표를 수집합니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability EKS 추가 기능 버전 v1.5.0-eksbuild.1 이상을 사용해야 합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. AWS Trainium에 대한 자세한 내용은 AWS Trainium을 참조하세요. AWS Inferentia에 대한 자세한 내용은 AWS Inferentia를 참조하세요.

Container Insights로 AWS Neuron 지표를 수집하려면 다음 사전 조건을 충족해야 합니다.

  • Amazon CloudWatch Observability EKS 추가 기능 버전 v1.5.0-eksbuild.1 이상을 사용하여 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용해야 합니다.

  • Neuron 드라이버는 클러스터의 노드에 설치해야 합니다.

  • Neuron 디바이스 플러그인은 클러스터에 설치해야 합니다. 예를 들어 Amazon EKS 최적화된 가속화 AMI는 필수 구성 요소로 구축됩니다.

이렇게 수집된 지표는 이 섹션의 표에 나열되어 있습니다. 지표는 AWS Trainium, AWS Inferentia, AWS Inferentia2에 대해 수집됩니다.

CloudWatch 에이전트는 Neuron 모니터에서 이러한 지표를 수집하고 필요한 Kubernetes 리소스 상관 관계를 수행하여 포드 및 컨테이너 수준에서 지표를 제공합니다.

지표 이름 측정기준 설명

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

컨테이너에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률.

단위: 백분율

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

NeuronCore의 교육 도중 컨테이너에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다.

단위: 바이트

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

컨테이너에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

컨테이너에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다.

단위: 바이트

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

컨테이너에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

컨테이너에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

컨테이너에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다.

단위: 바이트

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

노드에 있는 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다.

단위: 수

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

포드에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률.

단위: 백분율

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

NeuronCore의 교육 도중 포드에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다.

단위: 바이트

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

포드에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

포드에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다.

단위: 바이트

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

포드에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

포드에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

포드에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다.

단위: 바이트

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

포드에 할당된 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다.

단위: 바이트

node_neuroncore_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

노드에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률.

단위: 백분율

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

NeuronCore의 교육 도중 노드에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다.

단위: 바이트

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

노드에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

노드에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다.

단위: 바이트

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

노드에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

노드에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

node_neuroncore_memory_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

노드에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다.

단위: 바이트

node_neuron_execution_errors_total

ClusterName

ClusterName, InstanceId, NodeName

노드의 총 실행 오류 수입니다. 이 값은 CloudWatch 에이전트에서 generic, numerical, transient, model, runtime, hardware 유형의 오류를 집계하여 계산됩니다.

단위: 수

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, InstanceId, NodeName

노드의 Neuron 디바이스 메모리 사용량(바이트)의 총합입니다.

단위: 바이트

node_neuron_execution_latency

ClusterName

ClusterName, InstanceId, NodeName

Neuron 런타임으로 측정한 노드에서의 실행 지연 시간(초)입니다.

단위: 초

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

노드에 있는 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다.

단위: 수

AWS Elastic Fabric Adapter(EFA) 지표

CloudWatch 에이전트 1.300037.0 버전부터 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights 는 Linux 인스턴스의 Amazon EKS 클러스터로부터 AWS Elastic Fabric Adapter(EFA) 지표를 수집합니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability EKS 추가 기능 버전 v1.5.2-eksbuild.1 이상을 사용해야 합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. AWS Elastic Fabric Adapter에 대한 자세한 내용은 Elastic Fabric Adapter를 참조하세요.

Container Insights로 AWS Elastic Fabric Adapter 지표를 수집하려면 다음 사전 조건을 충족해야 합니다.

  • Amazon CloudWatch Observability EKS 추가 기능 버전 v1.5.2-eksbuild.1 이상을 사용하여 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용해야 합니다.

  • EFA 디바이스 플러그인은 클러스터에 설치해야 합니다. 자세한 내용은 GitHub의 aws-efa-k8s-device-plugin을 참조하세요.

수집된 지표 목록은 다음 표에 나와 있습니다.

지표 이름 측정기준 설명

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

컨테이너에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다.

단위: 바이트/초

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

컨테이너에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다.

단위: 바이트/초

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

컨테이너에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다.

단위: 개수/초

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다.

단위: 바이트/초

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다.

단위: 바이트/초

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다.

단위: 바이트/초

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

포드에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다.

단위: 바이트/초

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

포드에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다.

단위: 바이트/초

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

포드에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다.

단위: 개수/초

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다.

단위: 바이트/초

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다.

단위: 바이트/초

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다.

단위: 바이트/초

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

노드에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다.

단위: 바이트/초

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

노드에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다.

단위: 바이트/초

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

노드에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다.

단위: 개수/초

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

노드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다.

단위: 바이트/초

pod_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다.

단위: 바이트/초

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

노드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다.

단위: 바이트/초

Amazon SageMaker AI HyperPod 지표

CloudWatch Observability EKS 추가 기능의 버전 v2.0.1-eksbuild.1부터 Amazon EKS에 대한 향상된 관찰성을 갖춘 Container Insights는 Amazon EKS 클러스터에서 Amazon SageMaker AI HyperPod 지표를 자동으로 수집합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. Amazon SageMaker AI HyperPod에 대한 자세한 내용은 Amazon SageMaker AI HyperPod를 참조하세요.

수집된 지표 목록은 다음 표에 나와 있습니다.

지표 이름 측정기준 설명

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

Amazon SageMaker AI HyperPod에 의해 노드가 Unschedulable로 레이블이 지정되었는지를 나타냅니다. 이는 노드가 심층 상태 확인을 실행 중이며 워크로드 실행에 사용할 수 없음을 의미합니다.

단위: 수

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

Amazon SageMaker AI HyperPod에 의해 노드가 Schedulable로 레이블이 지정되었는지를 나타냅니다. 이는 노드가 기본 상태 확인 또는 심층 상태 확인을 통과했으며 워크로드 실행에 사용할 수 있음을 의미합니다.

단위: 수

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

HyperPod에 의해 노드가 UnschedulablePendingReplacement로 레이블이 지정되었는지를 나타냅니다. 이는 노드가 심층 상태 확인 또는 상태 모니터링 에이전트 확인에 실패했으며 교체가 필요함을 의미합니다.

자동 노드 복구가 활성화된 경우 Amazon SageMaker AI HyperPod에 의해 노드가 자동으로 교체됩니다.

단위: 수

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

Amazon SageMaker AI HyperPod에 의해 노드가 UnschedulablePendingReboot로 레이블이 지정되었는지를 나타냅니다. 이는 노드가 심층 상태 확인을 실행 중이며 재부팅이 필요함을 의미합니다.

자동 노드 복구가 활성화된 경우 Amazon SageMaker AI HyperPod에 의해 노드가 자동으로 재부팅됩니다.

단위: 수