쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

노드 자동 복구 활성화 및 노드 상태 문제 조사

포커스 모드
노드 자동 복구 활성화 및 노드 상태 문제 조사 - Amazon EKS

이 페이지 개선에 도움 주기

이 사용자 가이드에 기여하려면 모든 페이지의 오른쪽 창에 있는 GitHub에서 이 페이지 편집 링크를 선택합니다.

이 페이지 개선에 도움 주기

이 사용자 가이드에 기여하려면 모든 페이지의 오른쪽 창에 있는 GitHub에서 이 페이지 편집 링크를 선택합니다.

노드 상태는 워크로드를 효과적으로 실행하는 노드의 운영 상태 및 기능을 나타냅니다. 정상 노드는 예상 연결을 유지하고, 리소스가 충분하며, 중단 없이 포드를 성공적으로 실행할 수 있습니다. 노드에 대한 자세한 내용은 노드의 상태 보기kubectl 및 S3를 사용하여 관리형 노드에 대한 노드 로그 검색 섹션을 참조하세요.

Amazon EKS는 노드 모니터링 에이전트와 노드 자동 복구를 제공하여 정상 노드를 유지하는 데 도움이 됩니다.

노드 모니터링 에이전트

노드 모니터링 에이전트는 노드 로그를 자동으로 읽어 특정 상태 문제를 감지합니다. 노드 로그를 통해 구문 분석하여 장애를 감지하고 워커 노드에 대한 다양한 상태 정보를 표시합니다. 스토리지 및 네트워킹 문제와 같이 감지된 각 문제 범주에 대해 워커 노드에 전용 NodeCondition이 적용됩니다. 감지된 상태 문제에 대한 설명은 관찰성 대시보드에서 확인할 수 있습니다. 자세한 내용은 노드 상태 문제 단원을 참조하십시오.

노드 모니터링 에이전트는 모든 Amazon EKS Auto Mode 클러스터의 기능으로 포함됩니다. 다른 클러스터 유형의 경우 모니터링 에이전트를 Amazon EKS 추가 기능으로 추가할 수 있습니다. 자세한 내용은 Amazon EKS 추가 기능 생성 단원을 참조하십시오.

노드 자동 복구

노드 자동 복구는 노드 상태를 지속적으로 모니터링하여 감지된 문제에 자동으로 대응하고 가능한 경우 노드를 교체하는 추가 기능입니다. 이렇게 하면 수동 개입을 최소화하면서 클러스터의 전반적인 가용성을 높일 수 있습니다. 상태 확인이 실패하면 노드에 새 포드가 예약되지 않도록 노드가 자동으로 차단됩니다.

노드 자동 복구는 자체적으로 kubelet 및 수동으로 삭제된 노드 객체의 Ready 조건에 대응할 수 있습니다. 노드 모니터링 에이전트와 페어링하면 노드 자동 복구가 감지되지 않는 더 많은 조건에 대응할 수 있습니다. 이러한 추가 조건에는 KernelReady, NetworkingReady, StorageReady가 포함됩니다.

이 자동 노드 복구는 클러스터 조인 실패, 응답하지 않는 kubelet, 액셀러레이터(디바이스) 오류 증가 등 간헐적인 노드 문제를 자동으로 해결합니다. 안정성이 향상되면 애플리케이션 가동 중지 시간을 줄이고 클러스터 작업을 개선할 수 있습니다. 노드 자동 복구는 DiskPressure, MemoryPressure, PIDPressure와 같이 보고되는 특정 문제를 처리할 수 없습니다. Amazon EKS는 AcceleratedHardwareReady NodeConditions에 대한 작업을 수행하기 전에 10분, 다른 모든 조건에 대해서는 30분을 기다립니다.

또한 관리형 노드 그룹은 두 가지 시나리오에서 안전상의 이유로 노드 복구를 자동으로 비활성화합니다. 이전에 진행 중인 모든 복구 작업은 두 상황 모두에서 계속됩니다.

  • Application Recovery Controller(ARC)를 통해 클러스터의 영역 전환이 트리거된 경우 이후의 모든 복구 작업이 중지됩니다.

  • 노드 그룹에 5개가 넘는 노드가 있고 노드 그룹에서 비정상 상태의 노드가 20%를 초과하는 경우 복구 작업이 중지됩니다.

관리형 노드 그룹을 생성하거나 편집할 때 노드 자동 복구를 활성화할 수 있습니다.

노드 상태 문제

다음 표에서는 노드 모니터링 에이전트가 감지할 수 있는 노드 상태 문제를 설명합니다. 두 가지 문제가 있습니다.

  • 조건-인스턴스 교체 또는 재부팅과 같은 문제 해결 작업이 필요한 터미널 문제입니다. 자동 복구가 활성화되면 Amazon EKS는 노드 교체 또는 재부팅으로 복구 작업을 수행합니다. 자세한 내용은 노드 조건 단원을 참조하십시오.

  • 이벤트-일시적인 문제 또는 최적이 아닌 노드 구성입니다. 자동 복구 작업은 수행되지 않습니다. 자세한 내용은 노드 이벤트 단원을 참조하십시오.

커널 노드 상태 문제

명칭 심각도 설명

ForkFailedOutOfPID

Condition

시스템이 프로세스 ID 또는 메모리를 벗어났기 때문에 포크 또는 실행 호출이 실패했습니다. 이는 좀비 프로세스 또는 물리적 메모리 소진으로 인해 발생할 수 있습니다.

AppBlocked

Event

일반적으로 입력 또는 출력에서 차단되어 일정 예약에서 장시간 동안 작업이 차단되었습니다.

AppCrash

Event

노드의 애플리케이션이 충돌했습니다.

ApproachingKernelPidMax

Event

프로세스 수가 현재 kernel.pid_max 설정당 사용 가능한 최대 PID 수에 근접하고 있으며, 그 이후에는 더 이상 프로세스를 시작할 수 없습니다.

ApproachingMaxOpenFiles

Event

현재 커널 설정을 고려할 때 열려 있는 파일의 수가 가능한 최대 수에 근접하고 있으며, 그 이후에는 새 파일을 열지 못합니다.

ConntrackExceededKernel

Event

연결 추적이 커널의 최댓값을 초과했으며 새 연결을 설정할 수 없어 패킷 손실이 발생할 수 있습니다.

ExcessiveZombieProcesses

Event

완전히 회수할 수 없는 프로세스가 많은 수로 누적되고 이는 애플리케이션 문제를 나타내며 시스템 프로세스 제한에 도달할 수 있습니다.

KernelBug

Event

Linux 커널 자체에서 커널 버그가 감지 및 보고되었지만, 이는 CPU 또는 메모리 사용량이 높은 노드로 인해 발생할 수 있으며 이벤트 처리가 지연될 수 있습니다.

LargeEnvironment

Event

이 프로세스의 환경 변수 개수는 예상보다 많으며, 이는 enableServiceLinks가 true로 설정된 많은 서비스에서 발생할 수 있습니다. 이로 인해 성능 문제가 발생할 수 있습니다.

RapidCron

Event

cron 작업이 이 노드에서 5분 간격보다 빠르게 실행되고 있어 작업이 상당한 리소스를 소비하면 성능에 영향을 줄 수 있습니다.

SoftLockup

Event

CPU가 지정된 시간 동안 중지되었습니다.

네트워킹 노드 상태 문제

명칭 심각도 설명

InterfaceNotRunning

Condition

이 인터페이스가 실행 중이 아니거나 네트워크 문제가 있는 것 같습니다.

InterfaceNotUp

Condition

이 인터페이스가 작동하지 않거나 네트워크 문제가 있는 것 같습니다.

IPAMDNotReady

Condition

IPAMD가 API 서버에 연결되지 않습니다.

IPAMDNotRunning

Condition

aws-k8s-agent 프로세스가 실행 중인 것으로 확인되지 않았습니다.

MissingLoopbackInterface

Condition

루프백 인터페이스가 이 인스턴스에서 누락되어 로컬 연결에 따라 서비스가 실패하게 됩니다.

BandwidthInExceeded

Event

인바운드 집계 대역폭이 인스턴스의 최댓값을 초과하여 패킷이 대기열에 추가되거나 손실되었습니다.

BandwidthOutExceeded

Event

아웃바운드 집계 대역폭이 인스턴스의 최댓값을 초과하여 패킷이 대기열에 추가되거나 손실되었습니다.

ConntrackExceeded

Event

연결 추적이 인스턴스의 최댓값을 초과했으며 새 연결을 설정할 수 없어 패킷 손실이 발생할 수 있습니다.

IPAMDNoIPs

Event

IPAM-D에 IP 주소가 없습니다.

IPAMDRepeatedlyRestart

Event

IPAMD 서비스에서 여러 번 다시 시작되었습니다.

KubeProxyNotReady

Event

Kube-proxy가 리소스를 감시하거나 나열하지 못했습니다.

LinkLocalExceeded

Event

로컬 프록시 서비스에 대한 트래픽의 PPS가 네트워크 인터페이스의 최댓값을 초과하여 패킷이 손실되었습니다.

MissingDefaultRoutes

Event

기본 라우팅 규칙이 누락되었습니다.

MissingIPRules, MissingIPRoutes

Event

라우팅 테이블에서 다음 포드 IP에 대한 라우팅 규칙이 누락되었습니다.

NetworkSysctl

Event

이 노드의 네트워크 sysctl 설정이 잘못되었을 수도 있습니다.

PortConflict

Event

포드가 hostPort를 사용하는 경우 호스트의 이미 바인딩된 포트를 재정의하는 iptables 규칙을 작성할 수 있으므로 API 서버가 kubelet에 액세스하지 못할 수 있습니다.

PPSExceeded

Event

양방향 PPS가 인스턴스의 최댓값을 초과하여 패킷이 대기열에 추가되거나 손실되었습니다.

UnexpectedRejectRule

Event

예상치 못한 REJECT 또는 DROP 규칙이 iptables에서 발견되어 예상 트래픽을 차단할 수 있습니다.

Neuron 노드 상태 문제

명칭 심각도 설명

NeuronDMAError

Condition

DMA 엔진에서 복구할 수 없는 오류가 발생했습니다.

NeuronHBMUncorrectableError

Condition

HBM에서 수정할 수 없는 오류가 발생하여 잘못된 결과가 발생했습니다.

NeuronNCUncorrectableError

Condition

Neuron Core의 수정 불가능한 메모리 오류가 감지되었습니다.

NeuronSRAMUncorrectableError

Condition

온칩 SRAM에 패리티 오류가 발생하여 잘못된 결과가 발생했습니다.

NVIDIA 노드 상태 문제

자동 복구가 활성화된 경우 나열된 복구 작업은 문제가 감지되고 10분 후에 시작됩니다. XID 오류에 대한 자세한 내용은 NVIDIA GPU 배포 및 관리 설명서Xid Errors를 참조하세요. 개별 XID 메시지에 대한 자세한 내용은 NVIDIA GPU 배포 및 관리 설명서Understanding Xid Messages를 참조하세요.

명칭 심각도 설명 복구 작업

NvidiaDoubleBitError

Condition

GPU 드라이버에서 더블 비트 오류가 발생했습니다.

Replace

NvidiaNVLinkError

Condition

GPU 드라이버에서 NVLink 오류가 보고되었습니다.

Replace

NvidiaXID13Error

Condition

그래픽 엔진 예외가 있습니다.

재부팅

NvidiaXID31Error

Condition

의심되는 하드웨어 문제가 있습니다.

재부팅

NvidiaXID48Error

Condition

드라이버에서 더블 비트 ECC 오류가 보고되었습니다.

재부팅

NvidiaXID63Error

Condition

페이지 사용 중지 또는 행 다시 매핑이 있습니다.

재부팅

NvidiaXID64Error

Condition

페이지 사용 중지 또는 노드 다시 매핑 시도에서 실패가 발생했습니다.

재부팅

NvidiaXID74Error

Condition

GPU에서 다른 GPU 또는 NVLink를 통한 NVSwitch로 연결하는 데 문제가 있습니다. 이는 링크 자체의 하드웨어 장애 또는 링크의 원격 끝에 있는 디바이스에 문제가 있음을 나타낼 수 있습니다.

Replace

NvidiaXID79Error

Condition

GPU 드라이버가 PCI Express 연결을 통해 GPU에 액세스하려고 시도했지만 GPU에 액세스할 수 없는 것을 확인했습니다.

Replace

NvidiaXID94Error

Condition

ECC 메모리 오류가 있습니다.

재부팅

NvidiaXID95Error

Condition

ECC 메모리 오류가 있습니다.

재부팅

NvidiaXID119Error

Condition

GSP가 드라이버의 다른 비트에서 RPC 요청에 응답하는 시간을 초과했습니다.

Replace

NvidiaXID120Error

Condition

GSP가 제시간에 응답했지만 오류가 발생했습니다.

Replace

NvidiaXID121Error

Condition

C2C는 칩 상호 연결입니다. CPU, CPU 액셀러레이터 등 간에 메모리를 공유할 수 있습니다.

Replace

NvidiaXID140Error

Condition

GPU 드라이버는 동적 페이지 오프라이닝 또는 행 대시 매핑을 위해 페이지를 표시하는 GPU 드라이버의 기능을 방해하는 방식으로 GPU 메모리에서 수정 불가능한 오류를 관찰했을 수 있습니다.

Replace

NvidiaPageRetirement

Event

GPU 드라이버가 사용 중지를 위해 메모리 페이지를 표시했습니다. 동일한 주소에 단일 더블 비트 오류가 있거나 두 개의 단일 비트 오류가 발생하는 경우 이 문제가 발생할 수 있습니다.

없음

NvidiaXID[Code]Warning

Event

이 목록에 정의된 것 이외의 XID가 발생하면 이 이벤트가 발생합니다.

없음

DCGMError

Condition

데이터 센터 GPU 관리자(DCGM) 호스트 프로세스에 대한 연결이 끊어졌거나 설정할 수 없습니다.

없음

DCGMDiagnosticError

Condition

DCGM 활성 진단을 실행하는 동안 문제가 발생했습니다.

없음

DCGMDiagnosticFailure

Condition

DCGM 활성 진단 테스트 제품군의 테스트 사례가 실패했습니다.

없음

런타임 노드 상태 문제

명칭 심각도 설명

PodStuckTerminating

Condition

포드가 과도한 시간 동안 종료되지 않거나 중단되었습니다. 이는 포드 상태 진행을 방지하는 CRI 오류로 인해 발생할 수 있습니다.

%sRepeatedRestart

Event

노드에서 모든 systemd 서비스를 다시 시작합니다(제목 대소문자를 사용한 단위 이름 형식).

ContainerRuntimeFailed

Event

컨테이너 런타임이 컨테이너를 생성하지 못했습니다. 반복적으로 발생하는 경우 보고된 문제와 관련이 있을 수 있습니다.

KubeletFailed

Event

kubelet이 실패 상태가 되었습니다.

LivenessProbeFailures

Event

활성 프로브 장애가 감지되었습니다. 반복해서 발생하는 경우 애플리케이션 코드 문제 또는 불충분한 제한 시간 값을 나타낼 수 있습니다.

ReadinessProbeFailures

Event

준비 상태 프로브 장애가 감지되었습니다. 반복적으로 발생하는 경우 애플리케이션 코드 문제 또는 불충분한 제한 시간 값을 나타낼 수 있습니다.

ServiceFailedToStart

Event

systemd 단위를 시작하지 못했습니다.

스토리지 노드 상태 문제

명칭 심각도 설명

XFSSmallAverageClusterSize

Condition

XFS Average Cluster 크기는 작으며, 이는 사용 가능한 inode 또는 여유 공간에도 불구하고 파일 생성을 방지할 수 있는 과도한 여유 공간 조각화를 나타냅니다.

EtcHostsMountFailed

Event

kubelet-container 작업 중 사용자 데이터가 /var/lib/kubelet/pods를 다시 탑재하여 kubelet이 생성한 /etc/hosts를 탑재하지 못했습니다.

IODelays

Event

프로세스에서 입력 또는 출력 지연이 감지되었으며, 이는 과도한 경우 입력-출력 프로비저닝이 부족할 수 있음을 나타냅니다.

KubeletDiskUsageSlow

Event

Kubelet이 파일 시스템에 액세스하려고 할 때 느린 디스크 사용 속도를 보고하며, 이는 디스크 입력-출력이 부족하거나 파일 시스템 문제가 있음을 나타낼 수 있습니다.

이 페이지에서

프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.