Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Aktifkan perbaikan otomatis node dan selidiki masalah kesehatan node

Mode fokus
Aktifkan perbaikan otomatis node dan selidiki masalah kesehatan node - Amazon EKS

Bantu tingkatkan halaman ini

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Bantu tingkatkan halaman ini

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kesehatan node mengacu pada status operasional dan kemampuan node untuk menjalankan beban kerja secara efektif. Node yang sehat mempertahankan konektivitas yang diharapkan, memiliki sumber daya yang cukup, dan dapat berhasil menjalankan Pod tanpa gangguan. Untuk informasi tentang mendapatkan detail tentang node Anda, lihat Lihat status kesehatan node Anda danMengambil log node untuk node terkelola menggunakan kubectl dan S3.

Untuk membantu menjaga node yang sehat, Amazon EKS menawarkan agen pemantauan node dan perbaikan otomatis node.

Agen pemantauan simpul

Agen pemantauan node secara otomatis membaca log node untuk mendeteksi masalah kesehatan tertentu. Ini mem-parsing melalui log node untuk mendeteksi kegagalan dan memunculkan berbagai informasi status tentang node pekerja. Dedicated NodeCondition diterapkan pada node pekerja untuk setiap kategori masalah yang terdeteksi, seperti masalah penyimpanan dan jaringan. Deskripsi masalah kesehatan yang terdeteksi tersedia di dasbor observabilitas. Untuk informasi selengkapnya, lihat Masalah kesehatan simpul.

Agen pemantauan node disertakan sebagai kemampuan untuk semua kluster Mode Otomatis Amazon EKS. Untuk jenis cluster lainnya, Anda dapat menambahkan agen pemantauan sebagai add-on Amazon EKS. Untuk informasi selengkapnya, lihat Buat add-on Amazon EKS.

Perbaikan otomatis node

Node auto repair adalah fitur tambahan yang terus memantau kesehatan node, secara otomatis bereaksi terhadap masalah yang terdeteksi dan mengganti node bila memungkinkan. Ini membantu ketersediaan cluster secara keseluruhan dengan intervensi manual minimal. Jika pemeriksaan kesehatan gagal, node secara otomatis ditutup sehingga tidak ada Pod baru yang dijadwalkan pada node.

Dengan sendirinya, node auto repair dapat bereaksi terhadap Ready kondisi kubelet dan setiap objek node yang dihapus secara manual. Ketika dipasangkan dengan agen pemantauan node, perbaikan otomatis node dapat bereaksi terhadap lebih banyak kondisi yang tidak akan terdeteksi sebaliknya. Kondisi tambahan ini termasukKernelReady,NetworkingReady, danStorageReady.

Pemulihan node otomatis ini secara otomatis mengatasi masalah node intermiten seperti kegagalan untuk bergabung dengan cluster, kubelet yang tidak responsif, dan peningkatan kesalahan akselerator (perangkat). Keandalan yang ditingkatkan membantu mengurangi waktu henti aplikasi dan meningkatkan operasi klaster. Node auto repair tidak dapat menangani masalah tertentu yang dilaporkan sepertiDiskPressure,MemoryPressure, danPIDPressure. Amazon EKS menunggu 10 menit sebelum bertindak AcceleratedHardwareReadyNodeConditions, dan 30 menit untuk semua kondisi lainnya.

Grup node terkelola juga akan secara otomatis menonaktifkan perbaikan node untuk alasan keamanan di bawah dua skenario. Setiap operasi perbaikan yang sebelumnya sedang berlangsung akan berlanjut untuk kedua situasi.

  • Jika pergeseran zona untuk cluster Anda telah dipicu melalui Application Recovery Controller (ARC), semua operasi perbaikan berikutnya dihentikan.

  • Jika grup node Anda memiliki lebih dari lima node dan lebih dari 20% node dalam grup node Anda berada dalam keadaan tidak sehat, operasi perbaikan dihentikan.

Anda dapat mengaktifkan perbaikan otomatis node saat membuat atau mengedit grup node terkelola.

Masalah kesehatan simpul

Tabel berikut menjelaskan masalah kesehatan simpul yang dapat dideteksi oleh agen pemantauan node. Ada dua jenis masalah:

  • Kondisi — Masalah terminal yang menjamin tindakan remediasi seperti penggantian instance atau reboot. Ketika perbaikan otomatis diaktifkan, Amazon EKS akan melakukan tindakan perbaikan, baik sebagai penggantian node atau reboot. Untuk informasi selengkapnya, lihat Kondisi simpul.

  • Event — Masalah sementara atau konfigurasi node sub-optimal. Tidak ada tindakan perbaikan otomatis yang akan terjadi. Untuk informasi selengkapnya, lihat Peristiwa simpul.

Masalah kesehatan simpul kernel

Nama Kepelikan Deskripsi

ForkFailedOutOfPID

Ketentuan

Panggilan fork atau exec gagal karena sistem kehabisan proses IDs atau memori, yang mungkin disebabkan oleh proses zombie atau kelelahan memori fisik.

AppBlocked

Peristiwa

Tugas telah diblokir untuk jangka waktu yang lama dari penjadwalan, biasanya disebabkan oleh diblokir pada input atau output.

AppCrash

Peristiwa

Sebuah aplikasi pada node telah crash.

ApproachingKernelPidMax

Peristiwa

Jumlah proses mendekati jumlah maksimum PIDs yang tersedia per pengaturan kernel.pid_max saat ini, setelah itu tidak ada lagi proses yang dapat diluncurkan.

ApproachingMaxOpenFiles

Peristiwa

Jumlah file yang terbuka mendekati jumlah maksimum file terbuka yang mungkin diberikan pengaturan kernel saat ini, setelah itu membuka file baru akan gagal.

ConntrackExceededKernel

Peristiwa

Pelacakan koneksi melebihi maksimum untuk kernel dan koneksi baru tidak dapat dibuat, yang dapat mengakibatkan hilangnya paket.

ExcessiveZombieProcesses

Peristiwa

Proses yang tidak dapat sepenuhnya direklamasi terakumulasi dalam jumlah besar, yang menunjukkan masalah aplikasi dan dapat menyebabkan mencapai batas proses sistem.

KernelBug

Peristiwa

Bug kernel terdeteksi dan dilaporkan oleh kernel Linux itu sendiri, meskipun ini kadang-kadang disebabkan oleh node dengan CPU tinggi atau penggunaan memori yang menyebabkan pemrosesan peristiwa tertunda.

LargeEnvironment

Peristiwa

Jumlah variabel lingkungan untuk proses ini lebih besar dari yang diharapkan, berpotensi disebabkan oleh banyak layanan dengan enableServiceLinks set ke true, yang dapat menyebabkan masalah kinerja.

RapidCron

Peristiwa

Pekerjaan cron berjalan lebih cepat daripada setiap lima menit pada node ini, yang dapat memengaruhi kinerja jika pekerjaan tersebut menghabiskan sumber daya yang signifikan.

SoftLockup

Peristiwa

CPU terhenti untuk jangka waktu tertentu.

Masalah kesehatan simpul jaringan

Nama Kepelikan Deskripsi

InterfaceNotRunning

Ketentuan

Antarmuka ini tampaknya tidak berjalan atau ada masalah jaringan.

InterfaceNotUp

Ketentuan

Antarmuka ini tampaknya tidak aktif atau ada masalah jaringan.

IPAMDNotSiap

Ketentuan

IPAMD gagal terhubung ke server API.

IPAMDNotBerlari

Ketentuan

aws-k8s-agentProsesnya tidak ditemukan berjalan.

MissingLoopbackInterface

Ketentuan

Antarmuka loopback hilang dari instance ini, menyebabkan kegagalan layanan tergantung pada konektivitas lokal.

BandwidthInExceeded

Peristiwa

Paket telah diantrian atau dijatuhkan karena bandwidth agregat masuk melebihi maksimum untuk instance.

BandwidthOutExceeded

Peristiwa

Paket telah diantrian atau dijatuhkan karena bandwidth agregat keluar melebihi maksimum untuk instance.

ConntrackExceeded

Peristiwa

Pelacakan koneksi melebihi maksimum untuk instance dan koneksi baru tidak dapat dibuat, yang dapat mengakibatkan hilangnya paket.

IPAMDNoIPs

Peristiwa

IPAM-D kehabisan alamat IP.

IPAMDRepeatedlyMulai ulang

Peristiwa

Beberapa restart dalam layanan IPAMD telah terjadi.

KubeProxyNotReady

Peristiwa

Kube-proxy gagal menonton atau mencantumkan sumber daya.

LinkLocalExceeded

Peristiwa

Paket dijatuhkan karena PPS lalu lintas ke layanan proxy lokal melebihi maksimum antarmuka jaringan.

MissingDefaultRoutes

Peristiwa

Ada aturan rute default yang hilang.

HilangIPRules, Hilang IPRoutes

Peristiwa

Ada aturan rute yang hilang untuk Pod berikut IPs dari tabel rute.

NetworkSysctl

Peristiwa

Pengaturan sysctl jaringan node ini berpotensi salah.

PortConflict

Peristiwa

Jika sebuah Pod menggunakan HostPort, ia dapat menulis aturan iptables yang mengganti port host yang sudah terikat, yang berpotensi mencegah akses server API. kubelet

PPSExceeded

Peristiwa

Paket telah diantrian atau dijatuhkan karena PPS dua arah melebihi maksimum untuk instance.

UnexpectedRejectRule

Peristiwa

Sebuah tak terduga REJECT atau DROP aturan ditemukan di iptables, berpotensi memblokir lalu lintas yang diharapkan.

Masalah kesehatan simpul neuron

Nama Kepelikan Deskripsi

Neuron DMAError

Ketentuan

Mesin DMA mengalami kesalahan yang tidak dapat dipulihkan.

HBMUncorrectableKesalahan Neuron

Ketentuan

HBM mengalami kesalahan yang tidak dapat diperbaiki dan menghasilkan hasil yang salah.

NCUncorrectableKesalahan Neuron

Ketentuan

Kesalahan memori Neuron Core yang tidak dapat diperbaiki terdeteksi.

SRAMUncorrectableKesalahan Neuron

Ketentuan

SRAM on-chip mengalami kesalahan paritas dan menghasilkan hasil yang salah.

Masalah kesehatan node NVIDIA

Jika perbaikan otomatis diaktifkan, tindakan perbaikan yang tercantum mulai 10 menit setelah masalah terdeteksi. Untuk informasi selengkapnya tentang kesalahan XID, lihat Kesalahan Xid di Deployment GPU NVIDIA dan Dokumentasi Manajemen. Untuk informasi selengkapnya tentang pesan XID individual, lihat Memahami Pesan Xid di Dokumentasi Penerapan dan Manajemen GPU NVIDIA.

Nama Kepelikan Deskripsi Tindakan perbaikan

NvidiaDoubleBitError

Ketentuan

Kesalahan bit ganda dihasilkan oleh driver GPU.

Ganti

NVLinkKesalahan Nvidia

Ketentuan

NVLink kesalahan dilaporkan oleh driver GPU.

Ganti

XID13Kesalahan Nvidia

Ketentuan

Ada pengecualian mesin grafis.

Mulai ulang

XID31Kesalahan Nvidia

Ketentuan

Ada dugaan masalah perangkat keras.

Mulai ulang

XID48Kesalahan Nvidia

Ketentuan

Kesalahan ECC bit ganda dilaporkan oleh pengemudi.

Mulai ulang

XID63Kesalahan Nvidia

Ketentuan

Ada halaman pensiun atau pemetaan ulang baris.

Mulai ulang

XID64Kesalahan Nvidia

Ketentuan

Ada kegagalan mencoba untuk menghentikan halaman atau melakukan pemetaan ulang node.

Mulai ulang

XID74Kesalahan Nvidia

Ketentuan

Ada masalah dengan koneksi dari GPU ke GPU lain atau NVSwitch lebih. NVLink Ini mungkin menunjukkan kegagalan perangkat keras dengan tautan itu sendiri atau mungkin menunjukkan masalah dengan perangkat di ujung tautan yang jauh.

Ganti

XID79Kesalahan Nvidia

Ketentuan

Driver GPU mencoba mengakses GPU melalui koneksi PCI Express dan menemukan bahwa GPU tidak dapat diakses.

Ganti

XID94Kesalahan Nvidia

Ketentuan

Ada kesalahan memori ECC.

Mulai ulang

XID95Kesalahan Nvidia

Ketentuan

Ada kesalahan memori ECC.

Mulai ulang

XID119Kesalahan Nvidia

Ketentuan

GSP habis waktu menanggapi permintaan RPC dari bit lain di driver.

Ganti

Kesalahan Nvidia XID12 0

Ketentuan

GSP telah merespons tepat waktu, tetapi dengan kesalahan.

Ganti

XID121Kesalahan Nvidia

Ketentuan

C2C adalah interkoneksi chip. Ini memungkinkan berbagi memori antara CPUs, akselerator, dan banyak lagi.

Ganti

Kesalahan Nvidia XID14 0

Ketentuan

Driver GPU mungkin telah mengamati kesalahan yang tidak dapat diperbaiki dalam memori GPU, sedemikian rupa untuk mengganggu kemampuan driver GPU untuk menandai halaman untuk offlining halaman dinamis atau pemetaan ulang baris.

Ganti

NvidiaPageRetirement

Peristiwa

Pengemudi GPU telah menandai halaman memori untuk pensiun. Ini dapat terjadi jika ada kesalahan bit ganda tunggal atau dua kesalahan bit tunggal ditemui di alamat yang sama.

Tidak ada

Peringatan NvidiaXid [Kode]

Peristiwa

Setiap kejadian XIDs selain yang didefinisikan dalam daftar ini menghasilkan peristiwa ini.

Tidak ada

Masalah kesehatan node runtime

Nama Kepelikan Deskripsi

PodStuckTerminating

Ketentuan

Sebuah Pod sedang atau macet terminating untuk waktu yang berlebihan, yang dapat disebabkan oleh kesalahan CRI yang mencegah perkembangan status pod.

%sRepeatedRestart

Peristiwa

Memulai ulang layanan systemd apa pun pada node (diformat menggunakan nama unit selubung judul).

ContainerRuntimeFailed

Peristiwa

Runtime container gagal membuat container, kemungkinan terkait dengan masalah yang dilaporkan jika terjadi berulang kali.

KubeletFailed

Peristiwa

Kubelet memasuki keadaan gagal.

LivenessProbeFailures

Peristiwa

Kegagalan probe keaktifan terdeteksi, berpotensi menunjukkan masalah kode aplikasi atau nilai batas waktu yang tidak mencukupi jika terjadi berulang kali.

ReadinessProbeFailures

Peristiwa

Kegagalan probe kesiapan terdeteksi, berpotensi menunjukkan masalah kode aplikasi atau nilai batas waktu yang tidak mencukupi jika terjadi berulang kali.

ServiceFailedToStart

Peristiwa

Unit systemd gagal memulai.

Masalah kesehatan simpul penyimpanan

Nama Kepelikan Deskripsi

XFSSmallAverageClusterSize

Ketentuan

Ukuran XFS Average Cluster kecil, menunjukkan fragmentasi ruang kosong yang berlebihan yang dapat mencegah pembuatan file meskipun ada inode atau ruang kosong yang tersedia.

EtcHostsMountFailed

Peristiwa

Pemasangan kubelet yang dihasilkan /etc/hosts gagal karena remounting /var/lib/kubelet/pods data pengguna selama operasi kubelet-container.

IODelays

Peristiwa

Penundaan input atau output terdeteksi dalam suatu proses, berpotensi menunjukkan penyediaan input-output yang tidak mencukupi jika berlebihan.

KubeletDiskUsageSlow

Peristiwa

Kubelet melaporkan penggunaan disk yang lambat saat mencoba mengakses sistem file, berpotensi menunjukkan masalah input-output atau sistem file disk yang tidak mencukupi.

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.