Amazon EKS 및 Kubernetes Container Insights 지표
아래 표에는 Container Insights가 Amazon EKS 및 쿠버네티스용으로 수집하는 지표 및 측정 기준이 나와 있습니다. 이러한 지표는 ContainerInsights
네임스페이스에 있습니다. 자세한 내용은 지표 단원을 참조하십시오.
콘솔에 Container Insights 지표가 보이지 않는 경우, Container Insights 설정을 완료했는지 확인합니다. Container Insights 설정이 완료되기 전에는 지표가 나타나지 않습니다. 자세한 내용은 Container Insights 설정 단원을 참조하십시오.
Amazon EKS 추가 기능 버전 1.5.0 이상 또는 CloudWatch 에이전트 버전 1.300035.0을 사용 중인 경우 다음 표에 나열된 대부분의 지표가 Linux와 Windows 노드 모두에 대해 수집됩니다. 표의 지표 이름 열을 참조하여 Windows에서 수집되지 않는 지표를 확인하세요.
Container Insights의 원래 버전에서 지표는 사용자 지정 지표로 청구됩니다. Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용하면 Container Insights 지표는 저장된 지표나 수집된 로그별로 요금이 부과되는 대신 관찰당 요금이 부과됩니다. CloudWatch 요금에 대한 자세한 내용은 Amazon CloudWatch 요금
참고
Windows에서는 호스트 프로세스 컨테이너에 대해 pod_network_rx_bytes
및 pod_network_tx_bytes
등의 네트워크 지표는 수집되지 않습니다.
지표 이름 | 모든 버전의 Container Insights를 사용한 측정 기준 | Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights의 추가 측정 기준 | 설명 |
---|---|---|---|
|
|
클러스터의 실패한 작업자 노드의 숫자입니다. ‘노드 조건’ 문제를 겪고 있는 경우 노드가 실패한 것으로 간주됩니다. 자세한 내용은 Kubernetes 설명서에서 조건 |
|
|
|
클러스터의 작업자 노드의 총 숫자입니다. |
|
|
|
사용 중인 측정기준에서 지정한 리소스의 네임스페이스당 실행 중인 Pod 숫자입니다. |
|
|
|
|
클러스터에서 단일 노드에 할당할 수 있는 최대 CPU 단위 숫자입니다. |
|
|
kubelet, kube-proxy, Docker 등 노드 구성 요소에 예약된 CPU 단위의 비율입니다. 공식: 참고
|
|
|
|
|
클러스터의 노드에서 사용 중인 CPU 단위의 숫자입니다. |
|
|
클러스터의 노드에서 사용 중인 CPU 단위의 총 백분율입니다. 공식: |
|
|
|
클러스터에서 노드에 사용하는 파일 시스템 용량의 총 백분율입니다. 공식: 참고
|
|
|
|
|
클러스터에서 단일 노드로 할당될 수 있는 최대 메모리의 양(바이트)입니다. |
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다. Windows에서는 제공되지 않습니다. |
|
노드의 총 아이노드(사용 및 미사용) 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다. Windows에서는 제공되지 않습니다. |
|
노드의 미사용 아이노드 수입니다. |
|
|
|
클러스터의 노드에서 현재 사용 중인 메모리의 비율입니다. 공식: 참고
|
|
|
|
한 개 또는 여러 개의 노드에서 현재 사용 중인 메모리의 비율입니다. 노드 메모리 사용량을 노드 메모리 제한으로 나눈 백분율입니다. 공식: |
|
|
|
|
클러스터의 노드 작업 세트에서 사용하는 메모리의 양(바이트)입니다. |
|
|
클러스터에서 노드당 네트워크를 통해 전송 및 수신된 초당 바이트의 합계 수치입니다. 공식: 참고
|
|
|
|
클러스터에서 노드당 실행 중인 컨테이너의 숫자입니다. |
|
|
|
클러스터에서 노드당 실행 중인 Pod 숫자입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
할당 가능한 리소스를 기준으로 노드에 할당할 수 있는 포드 수이며 이는 시스템 대몬(daemon) 예약 및 하드 제거 임곗값을 고려한 후 노드 용량의 나머지 부분으로 정의됩니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
용량에 따라 노드에 할당할 수 있는 포드 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
노드 상태 조건 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
노드 상태 조건 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
노드 상태 조건 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
노드 상태 조건 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
노드 상태 조건 중 알 수 없는 상태가 있는지 여부를 나타냅니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
노드의 네트워크 인터페이스에서 수신한 후 삭제한 패킷 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
전송될 예정이었으나 노드의 네트워크 인터페이스에서 삭제된 패킷 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다. Windows에서는 제공되지 않습니다. |
|
노드의 모든 I/O 작업에서 전송된 총 바이트 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다. Windows에서는 제공되지 않습니다. |
|
노드의 총 I/O 작업 횟수입니다. |
|
|
|
|
클러스터에서 Pod별로 예약된 CPU 용량입니다. 공식: 참고
|
|
네임스페이스, 서비스, 네임스페이스,
|
|
Pod에서 사용 중인 CPU 단위의 비율입니다. 공식: 참고
|
|
네임스페이스, 서비스, 네임스페이스,
|
|
포드 제한을 기준으로 포드에서 사용 중인 CPU 단위의 백분율입니다. 공식: 참고
|
|
|
|
포드에 예약된 메모리의 비율입니다. 공식: 참고
|
|
네임스페이스, 서비스, 네임스페이스,
|
|
한 개 또는 여러 개의 Pod에서 현재 사용 중인 메모리의 비율입니다. 공식: 참고
|
|
네임스페이스, 서비스, 네임스페이스,
|
|
포드 제한을 기준으로 포드에서 사용 중인 메모리의 백분율입니다. 포드의 컨테이너에 메모리 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: 참고
|
|
네임스페이스, 서비스, 네임스페이스,
|
|
Pod에서 네트워크를 통해 수신 중인 초당 바이트 수입니다. 공식: 참고
|
|
네임스페이스, 서비스, 네임스페이스,
|
|
Pod에서 네트워크를 통해 전송 중인 초당 바이트 수입니다. 공식: 참고
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드에 대한 CPU 요청입니다. 공식: 참고
|
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드에 대한 메모리 요청량입니다. 공식: 참고
|
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드의 컨테이너에 대해 정의된 CPU 한도입니다. 포드의 컨테이너에 CPU 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: 참고
|
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드의 컨테이너에 대해 정의된 메모리 한도입니다. 포드의 컨테이너에 메모리 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: 참고
|
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드의 모든 컨테이너가 종료되었으며, 하나 이상의 컨테이너가 0이 아닌 상태로 종료되었거나 시스템에 의해 종료되었음을 나타냅니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드의 모든 컨테이너가 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드의 모든 컨테이너가 실행 중임을 나타냅니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드가 노드에 예약되었음을 나타냅니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드의 상태를 가져올 수 없음을 나타냅니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
클러스터에서 포드를 수락했지만 하나 이상의 컨테이너가 아직 준비되지 않았음을 나타냅니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드의 모든 컨테이너가 성공적으로 종료되었으며 다시 시작되지 않음을 나타냅니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드 사양에 정의된 컨테이너 수를 보고합니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
현재 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드에서 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드에서 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드에서 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
컨테이너가 반복적으로 시작에 실패하는 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
사유 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
컨테이너 생성 중 발생한 오류 때문에 사유 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
|
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
메모리 부족(OOM 종료)으로 인해 포드에서 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
컨테이너 시작 중 발생한 오류 때문에 사유 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
포드의 네트워크 인터페이스에서 수신된 후 삭제된 패킷 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
전송될 예정이었으나 포드에서 삭제된 패킷 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
컨테이너에서 사용 중인 CPU 단위의 비율입니다. 공식: 참고
|
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
컨테이너 제한을 기준으로 컨테이너에서 사용 중인 CPU 단위의 비율입니다. 컨테이너에 CPU 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: 참고
|
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
컨테이너에서 사용 중인 메모리 단위의 비율입니다. 공식: 참고
|
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
컨테이너 제한을 기준으로 컨테이너에서 사용 중인 메모리 단위의 비율입니다. 컨테이너에 메모리 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: 참고
|
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다. Windows에서는 제공되지 않습니다. |
|
컨테이너에서 발생한 메모리 할당 실패 횟수입니다. |
|
|
PodName, |
Pod의 컨테이너 재시작 총 횟수입니다. |
|
|
서비스,
|
클러스터에서 단일 또는 복수의 서비스를 실행하는 Pod의 숫자입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
워크로드 사양에 정의된 워크로드에 필요한 포드 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
준비 상태에 도달한 워크로드의 포드 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
워크로드에 사용할 수 있는 포드 수입니다. 워크로드 사양에 정의된 대로 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
사용할 수 없는 워크로드의 포드 수입니다. 워크로드 사양에 정의된 대로 |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
마지막 확인 당시 etcd에 저장된 객체 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
Kubernetes API 서버에 대한 총 API 요청 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
Kubernetes API 서버에 대한 API 요청의 응답 지연 시간입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
승인 컨트롤러 지연 시간(초)입니다. 승인 컨트롤러는 Kubernetes API 서버에 대한 요청을 가로채는 코드입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
Kubernetes API 서버를 호출하는 클라이언트가 경험한 응답 지연 시간입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
클라이언트가 Kubernetes API 서버에 요청한 총 API 요청 수입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
Etcd에 대한 API 호출의 응답 지연 시간입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
물리적으로 할당된 스토리지 데이터베이스 파일의 크기(바이트)입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
Kubernetes API 서버에 대한 활성 장기 실행 요청 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
Kubernetes API 서버에서 처리 중인 요청 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
승인 웹후크 지연 시간(초)입니다. 승인 웹후크는 승인 요청을 수신하고 이를 이용해 무언가를 수행하는 HTTP 콜백입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
승인 하위 단계 지연 시간(초)입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
Kubernetes API 서버에서 더 이상 사용되지 않는 API에 대한 요청 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
Kubernetes API 서버에 대한 요청 중 5XX HTTP 응답 코드로 응답한 요청 수입니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
Etcd의 객체를 나열하는 응답 지연 시간입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
Kubernetes API 서버에서 대기열에 있는 요청 수입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다. |
|
이 지표는 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 통해서만 제공됩니다 |
|
API 우선순위 및 공정성 하위 시스템에서 거부한 요청 수입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다. |
NVIDIA GPU 지표
Amazon EKS의 향상된 관찰성을 사용하여 CloudWatch 에이전트 버전 1.300034.0
부터 Container Insights는 기본적으로 EKS 워크로드에서 NVIDIA GPU 지표를 수집합니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability EKS 추가 기능 버전 v1.3.0-eksbuild.1
이상을 사용해야 합니다. 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 단원을 참조하십시오. 이렇게 수집된 NVIDIA GPU 지표는 이 섹션의 표에 나열되어 있습니다.
Container Insights로 NVIDIA GPU 지표를 수집하려면 다음 사전 요구 사항을 충족해야 합니다.
Amazon CloudWatch Observability EKS 추가 기능 버전
v1.3.0-eksbuild.1
이상을 사용하여 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용해야 합니다.NVIDIA 컨테이너 툴킷
은 클러스터의 노드에 설치해야 합니다. 예를 들어 Amazon EKS 최적화된 가속화 AMI는 필수 구성 요소로 구축됩니다.
CloudWatch 에이전트 구성 파일 처음의 accelerated_compute_metrics
옵션을 false
로 설정하여 NVIDIA GPU 지표 수집을 옵트아웃할 수 있습니다. 자세한 내용과 옵트아웃 예시는 (선택 사항) 추가 구성 단원을 참조하십시오.
지표 이름 | 측정기준 | 설명 |
---|---|---|
|
|
컨테이너에 할당된 GPU의 총 프레임 버퍼 바이트 규모. |
|
|
컨테이너에 할당된 GPU에서 사용된 프레임 버퍼의 바이트. |
|
|
컨테이너에 할당된 GPU의 프레임 버퍼 사용률. |
|
|
컨테이너에 할당된 GPU의 전력 와트 사용량. |
|
|
컨테이너에 할당된 GPU의 섭씨 온도. |
|
|
컨테이너에 할당된 GPU의 활용률. |
|
|
노드에 할당된 GPU의 총 프레임 버퍼 바이트 규모. |
|
|
노드에 할당된 GPU에서 사용된 프레임 버퍼의 바이트. |
|
|
노드에 할당된 GPU의 프레임 버퍼 사용률. |
|
|
노드에 할당된 GPU의 전력 와트 사용량. |
|
|
노드에 할당된 GPU의 섭씨 온도. |
|
|
노드에 할당된 GPU의 활용률. |
|
|
포드에 할당된 GPU의 총 프레임 버퍼 바이트 규모. |
|
|
포드에 할당된 GPU에서 사용된 프레임 버퍼의 바이트. |
|
|
포드에 할당된 GPU의 프레임 버퍼 사용률. |
|
|
포드에 할당된 GPU의 전력 와트 사용량. |
|
|
포드에 할당된 GPU의 섭씨 온도. |
|
|
포드에 할당된 GPU의 활용률. |
AWS Trainium 및 AWS Inferentia의 AWS Neuron 지표
CloudWatch 에이전트의 1.300036.0
버전부터 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights는 기본적으로 AWS Trainium 및 AWS Inferentia 액셀러레이터로부터 가속화된 컴퓨팅 지표를 수집합니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability EKS 추가 기능 버전 v1.5.0-eksbuild.1
이상을 사용해야 합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. AWS Trainium에 대한 자세한 내용은 AWS Trainium
Container Insights로 AWS Neuron 지표를 수집하려면 다음 사전 조건을 충족해야 합니다.
Amazon CloudWatch Observability EKS 추가 기능 버전
v1.5.0-eksbuild.1
이상을 사용하여 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용해야 합니다.Neuron 드라이버
는 클러스터의 노드에 설치해야 합니다. Neuron 디바이스 플러그인
은 클러스터에 설치해야 합니다. 예를 들어 Amazon EKS 최적화된 가속화 AMI는 필수 구성 요소로 구축됩니다.
이렇게 수집된 지표는 이 섹션의 표에 나열되어 있습니다. 지표는 AWS Trainium, AWS Inferentia, AWS Inferentia2에 대해 수집됩니다.
CloudWatch 에이전트는 Neuron 모니터
지표 이름 | 측정기준 | 설명 |
---|---|---|
|
|
컨테이너에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률. 단위: 백분율 |
|
|
NeuronCore의 교육 도중 컨테이너에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
컨테이너에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
컨테이너에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다. 단위: 바이트 |
|
|
컨테이너에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
컨테이너에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
컨테이너에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다. 단위: 바이트 |
|
|
노드에 있는 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다. 단위: 수 |
|
|
포드에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률. 단위: 백분율 |
|
|
NeuronCore의 교육 도중 포드에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
포드에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
포드에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다. 단위: 바이트 |
|
|
포드에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
포드에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
포드에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다. 단위: 바이트 |
|
|
포드에 할당된 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다. 단위: 바이트 |
|
|
노드에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률. 단위: 백분율 |
|
|
NeuronCore의 교육 도중 노드에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
노드에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
노드에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다. 단위: 바이트 |
|
|
노드에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
노드에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
노드에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다. 단위: 바이트 |
|
|
노드의 총 실행 오류 수입니다. 이 값은 CloudWatch 에이전트에서 단위: 수 |
|
|
노드의 Neuron 디바이스 메모리 사용량(바이트)의 총합입니다. 단위: 바이트 |
|
|
Neuron 런타임으로 측정한 노드에서의 실행 지연 시간(초)입니다. 단위: 초 |
|
|
노드에 있는 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다. 단위: 수 |
AWS Elastic Fabric Adapter(EFA) 지표
CloudWatch 에이전트 1.300037.0
버전부터 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights 는 Linux 인스턴스의 Amazon EKS 클러스터로부터 AWS Elastic Fabric Adapter(EFA) 지표를 수집합니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability EKS 추가 기능 버전 v1.5.2-eksbuild.1
이상을 사용해야 합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. AWS Elastic Fabric Adapter에 대한 자세한 내용은 Elastic Fabric Adapter
Container Insights로 AWS Elastic Fabric Adapter 지표를 수집하려면 다음 사전 조건을 충족해야 합니다.
Amazon CloudWatch Observability EKS 추가 기능 버전
v1.5.2-eksbuild.1
이상을 사용하여 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용해야 합니다.EFA 디바이스 플러그인은 클러스터에 설치해야 합니다. 자세한 내용은 GitHub의 aws-efa-k8s-device-plugin
을 참조하세요.
수집된 지표 목록은 다음 표에 나와 있습니다.
지표 이름 | 측정기준 | 설명 |
---|---|---|
|
|
컨테이너에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
컨테이너에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
컨테이너에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다. 단위: 개수/초 |
|
|
컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
포드에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
포드에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
포드에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다. 단위: 개수/초 |
|
|
포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
노드에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
노드에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
노드에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다. 단위: 개수/초 |
|
|
노드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
노드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
Amazon SageMaker AI HyperPod 지표
CloudWatch Observability EKS 추가 기능의 버전 v2.0.1-eksbuild.1
부터 Amazon EKS에 대한 향상된 관찰성을 갖춘 Container Insights는 Amazon EKS 클러스터에서 Amazon SageMaker AI HyperPod 지표를 자동으로 수집합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. Amazon SageMaker AI HyperPod에 대한 자세한 내용은 Amazon SageMaker AI HyperPod를 참조하세요.
수집된 지표 목록은 다음 표에 나와 있습니다.
지표 이름 | 측정기준 | 설명 |
---|---|---|
|
|
Amazon SageMaker AI HyperPod에 의해 노드가 단위: 수 |
|
|
Amazon SageMaker AI HyperPod에 의해 노드가 단위: 수 |
|
|
HyperPod에 의해 노드가 자동 노드 복구가 활성화된 경우 Amazon SageMaker AI HyperPod에 의해 노드가 자동으로 교체됩니다. 단위: 수 |
|
|
Amazon SageMaker AI HyperPod에 의해 노드가 자동 노드 복구가 활성화된 경우 Amazon SageMaker AI HyperPod에 의해 노드가 자동으로 재부팅됩니다. 단위: 수 |