Bantu tingkatkan halaman ini
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kesehatan node mengacu pada status operasional dan kemampuan node untuk menjalankan beban kerja secara efektif. Node yang sehat mempertahankan konektivitas yang diharapkan, memiliki sumber daya yang cukup, dan dapat berhasil menjalankan Pod tanpa gangguan. Untuk informasi tentang mendapatkan detail tentang node Anda, lihat Lihat status kesehatan node Anda danMengambil log node untuk node terkelola menggunakan kubectl dan S3.
Untuk membantu menjaga node yang sehat, Amazon EKS menawarkan agen pemantauan node dan perbaikan otomatis node.
Agen pemantauan simpul
Agen pemantauan node secara otomatis membaca log node untuk mendeteksi masalah kesehatan tertentu. Ini mem-parsing melalui log node untuk mendeteksi kegagalan dan memunculkan berbagai informasi status tentang node pekerja. Dedicated NodeCondition
diterapkan pada node pekerja untuk setiap kategori masalah yang terdeteksi, seperti masalah penyimpanan dan jaringan. Deskripsi masalah kesehatan yang terdeteksi tersedia di dasbor observabilitas. Untuk informasi selengkapnya, lihat Masalah kesehatan simpul.
Agen pemantauan node disertakan sebagai kemampuan untuk semua kluster Mode Otomatis Amazon EKS. Untuk jenis cluster lainnya, Anda dapat menambahkan agen pemantauan sebagai add-on Amazon EKS. Untuk informasi selengkapnya, lihat Buat add-on Amazon EKS.
Perbaikan otomatis node
Node auto repair adalah fitur tambahan yang terus memantau kesehatan node, secara otomatis bereaksi terhadap masalah yang terdeteksi dan mengganti node bila memungkinkan. Ini membantu ketersediaan cluster secara keseluruhan dengan intervensi manual minimal. Jika pemeriksaan kesehatan gagal, node secara otomatis ditutup sehingga tidak ada Pod baru yang dijadwalkan pada node.
Dengan sendirinya, node auto repair dapat bereaksi terhadap Ready
kondisi kubelet
dan setiap objek node yang dihapus secara manual. Ketika dipasangkan dengan agen pemantauan node, perbaikan otomatis node dapat bereaksi terhadap lebih banyak kondisi yang tidak akan terdeteksi sebaliknya. Kondisi tambahan ini termasukKernelReady
,NetworkingReady
, danStorageReady
.
Pemulihan node otomatis ini secara otomatis mengatasi masalah node intermiten seperti kegagalan untuk bergabung dengan cluster, kubelet yang tidak responsif, dan peningkatan kesalahan akselerator (perangkat). Keandalan yang ditingkatkan membantu mengurangi waktu henti aplikasi dan meningkatkan operasi klaster. Node auto repair tidak dapat menangani masalah tertentu yang dilaporkan sepertiDiskPressure
,MemoryPressure
, danPIDPressure
. Amazon EKS menunggu 10 menit sebelum bertindak AcceleratedHardwareReady
NodeConditions
, dan 30 menit untuk semua kondisi lainnya.
Grup node terkelola juga akan secara otomatis menonaktifkan perbaikan node untuk alasan keamanan di bawah dua skenario. Setiap operasi perbaikan yang sebelumnya sedang berlangsung akan berlanjut untuk kedua situasi.
-
Jika pergeseran zona untuk cluster Anda telah dipicu melalui Application Recovery Controller (ARC), semua operasi perbaikan berikutnya dihentikan.
-
Jika grup node Anda memiliki lebih dari lima node dan lebih dari 20% node dalam grup node Anda berada dalam keadaan tidak sehat, operasi perbaikan dihentikan.
Anda dapat mengaktifkan perbaikan otomatis node saat membuat atau mengedit grup node terkelola.
-
Saat menggunakan konsol Amazon EKS, aktifkan kotak centang Aktifkan perbaikan otomatis node untuk grup node terkelola. Untuk informasi selengkapnya, lihat Buat grup node terkelola untuk klaster Anda.
-
Saat menggunakan AWS CLI, tambahkan
--node-repair-config enabled=true
ke perintaheks create nodegroup
oreks update-nodegroup-config
. -
Untuk contoh
eksctl
ClusterConfig
yang menggunakan grup node terkelola dengan perbaikan otomatis node, lihat 44-node-repair.yamlaktif. GitHub
Masalah kesehatan simpul
Tabel berikut menjelaskan masalah kesehatan simpul yang dapat dideteksi oleh agen pemantauan node. Ada dua jenis masalah:
-
Kondisi — Masalah terminal yang menjamin tindakan remediasi seperti penggantian instance atau reboot. Ketika perbaikan otomatis diaktifkan, Amazon EKS akan melakukan tindakan perbaikan, baik sebagai penggantian node atau reboot. Untuk informasi selengkapnya, lihat Kondisi simpul.
-
Event — Masalah sementara atau konfigurasi node sub-optimal. Tidak ada tindakan perbaikan otomatis yang akan terjadi. Untuk informasi selengkapnya, lihat Peristiwa simpul.
Masalah kesehatan simpul kernel
Nama | Kepelikan | Deskripsi |
---|---|---|
ForkFailedOutOfPID |
Ketentuan |
Panggilan fork atau exec gagal karena sistem kehabisan proses IDs atau memori, yang mungkin disebabkan oleh proses zombie atau kelelahan memori fisik. |
AppBlocked |
Peristiwa |
Tugas telah diblokir untuk jangka waktu yang lama dari penjadwalan, biasanya disebabkan oleh diblokir pada input atau output. |
AppCrash |
Peristiwa |
Sebuah aplikasi pada node telah crash. |
ApproachingKernelPidMax |
Peristiwa |
Jumlah proses mendekati jumlah maksimum PIDs yang tersedia per pengaturan kernel.pid_max saat ini, setelah itu tidak ada lagi proses yang dapat diluncurkan. |
ApproachingMaxOpenFiles |
Peristiwa |
Jumlah file yang terbuka mendekati jumlah maksimum file terbuka yang mungkin diberikan pengaturan kernel saat ini, setelah itu membuka file baru akan gagal. |
ConntrackExceededKernel |
Peristiwa |
Pelacakan koneksi melebihi maksimum untuk kernel dan koneksi baru tidak dapat dibuat, yang dapat mengakibatkan hilangnya paket. |
ExcessiveZombieProcesses |
Peristiwa |
Proses yang tidak dapat sepenuhnya direklamasi terakumulasi dalam jumlah besar, yang menunjukkan masalah aplikasi dan dapat menyebabkan mencapai batas proses sistem. |
KernelBug |
Peristiwa |
Bug kernel terdeteksi dan dilaporkan oleh kernel Linux itu sendiri, meskipun ini kadang-kadang disebabkan oleh node dengan CPU tinggi atau penggunaan memori yang menyebabkan pemrosesan peristiwa tertunda. |
LargeEnvironment |
Peristiwa |
Jumlah variabel lingkungan untuk proses ini lebih besar dari yang diharapkan, berpotensi disebabkan oleh banyak layanan dengan enableServiceLinks set ke true, yang dapat menyebabkan masalah kinerja. |
RapidCron |
Peristiwa |
Pekerjaan cron berjalan lebih cepat daripada setiap lima menit pada node ini, yang dapat memengaruhi kinerja jika pekerjaan tersebut menghabiskan sumber daya yang signifikan. |
SoftLockup |
Peristiwa |
CPU terhenti untuk jangka waktu tertentu. |
Masalah kesehatan simpul jaringan
Nama | Kepelikan | Deskripsi |
---|---|---|
InterfaceNotRunning |
Ketentuan |
Antarmuka ini tampaknya tidak berjalan atau ada masalah jaringan. |
InterfaceNotUp |
Ketentuan |
Antarmuka ini tampaknya tidak aktif atau ada masalah jaringan. |
IPAMDNotSiap |
Ketentuan |
IPAMD gagal terhubung ke server API. |
IPAMDNotBerlari |
Ketentuan |
|
MissingLoopbackInterface |
Ketentuan |
Antarmuka loopback hilang dari instance ini, menyebabkan kegagalan layanan tergantung pada konektivitas lokal. |
BandwidthInExceeded |
Peristiwa |
Paket telah diantrian atau dijatuhkan karena bandwidth agregat masuk melebihi maksimum untuk instance. |
BandwidthOutExceeded |
Peristiwa |
Paket telah diantrian atau dijatuhkan karena bandwidth agregat keluar melebihi maksimum untuk instance. |
ConntrackExceeded |
Peristiwa |
Pelacakan koneksi melebihi maksimum untuk instance dan koneksi baru tidak dapat dibuat, yang dapat mengakibatkan hilangnya paket. |
IPAMDNoIPs |
Peristiwa |
IPAM-D kehabisan alamat IP. |
IPAMDRepeatedlyMulai ulang |
Peristiwa |
Beberapa restart dalam layanan IPAMD telah terjadi. |
KubeProxyNotReady |
Peristiwa |
Kube-proxy gagal menonton atau mencantumkan sumber daya. |
LinkLocalExceeded |
Peristiwa |
Paket dijatuhkan karena PPS lalu lintas ke layanan proxy lokal melebihi maksimum antarmuka jaringan. |
MissingDefaultRoutes |
Peristiwa |
Ada aturan rute default yang hilang. |
HilangIPRules, Hilang IPRoutes |
Peristiwa |
Ada aturan rute yang hilang untuk Pod berikut IPs dari tabel rute. |
NetworkSysctl |
Peristiwa |
Pengaturan sysctl jaringan node ini berpotensi salah. |
PortConflict |
Peristiwa |
Jika sebuah Pod menggunakan HostPort, ia dapat menulis aturan iptables yang mengganti port host yang sudah terikat, yang berpotensi mencegah akses server API. |
PPSExceeded |
Peristiwa |
Paket telah diantrian atau dijatuhkan karena PPS dua arah melebihi maksimum untuk instance. |
UnexpectedRejectRule |
Peristiwa |
Sebuah tak terduga |
Masalah kesehatan simpul neuron
Nama | Kepelikan | Deskripsi |
---|---|---|
Neuron DMAError |
Ketentuan |
Mesin DMA mengalami kesalahan yang tidak dapat dipulihkan. |
HBMUncorrectableKesalahan Neuron |
Ketentuan |
HBM mengalami kesalahan yang tidak dapat diperbaiki dan menghasilkan hasil yang salah. |
NCUncorrectableKesalahan Neuron |
Ketentuan |
Kesalahan memori Neuron Core yang tidak dapat diperbaiki terdeteksi. |
SRAMUncorrectableKesalahan Neuron |
Ketentuan |
SRAM on-chip mengalami kesalahan paritas dan menghasilkan hasil yang salah. |
Masalah kesehatan node NVIDIA
Jika perbaikan otomatis diaktifkan, tindakan perbaikan yang tercantum mulai 10 menit setelah masalah terdeteksi. Untuk informasi selengkapnya tentang kesalahan XID, lihat Kesalahan Xid
Nama | Kepelikan | Deskripsi | Tindakan perbaikan |
---|---|---|---|
NvidiaDoubleBitError |
Ketentuan |
Kesalahan bit ganda dihasilkan oleh driver GPU. |
Ganti |
NVLinkKesalahan Nvidia |
Ketentuan |
NVLink kesalahan dilaporkan oleh driver GPU. |
Ganti |
XID13Kesalahan Nvidia |
Ketentuan |
Ada pengecualian mesin grafis. |
Mulai ulang |
XID31Kesalahan Nvidia |
Ketentuan |
Ada dugaan masalah perangkat keras. |
Mulai ulang |
XID48Kesalahan Nvidia |
Ketentuan |
Kesalahan ECC bit ganda dilaporkan oleh pengemudi. |
Mulai ulang |
XID63Kesalahan Nvidia |
Ketentuan |
Ada halaman pensiun atau pemetaan ulang baris. |
Mulai ulang |
XID64Kesalahan Nvidia |
Ketentuan |
Ada kegagalan mencoba untuk menghentikan halaman atau melakukan pemetaan ulang node. |
Mulai ulang |
XID74Kesalahan Nvidia |
Ketentuan |
Ada masalah dengan koneksi dari GPU ke GPU lain atau NVSwitch lebih. NVLink Ini mungkin menunjukkan kegagalan perangkat keras dengan tautan itu sendiri atau mungkin menunjukkan masalah dengan perangkat di ujung tautan yang jauh. |
Ganti |
XID79Kesalahan Nvidia |
Ketentuan |
Driver GPU mencoba mengakses GPU melalui koneksi PCI Express dan menemukan bahwa GPU tidak dapat diakses. |
Ganti |
XID94Kesalahan Nvidia |
Ketentuan |
Ada kesalahan memori ECC. |
Mulai ulang |
XID95Kesalahan Nvidia |
Ketentuan |
Ada kesalahan memori ECC. |
Mulai ulang |
XID119Kesalahan Nvidia |
Ketentuan |
GSP habis waktu menanggapi permintaan RPC dari bit lain di driver. |
Ganti |
Kesalahan Nvidia XID12 0 |
Ketentuan |
GSP telah merespons tepat waktu, tetapi dengan kesalahan. |
Ganti |
XID121Kesalahan Nvidia |
Ketentuan |
C2C adalah interkoneksi chip. Ini memungkinkan berbagi memori antara CPUs, akselerator, dan banyak lagi. |
Ganti |
Kesalahan Nvidia XID14 0 |
Ketentuan |
Driver GPU mungkin telah mengamati kesalahan yang tidak dapat diperbaiki dalam memori GPU, sedemikian rupa untuk mengganggu kemampuan driver GPU untuk menandai halaman untuk offlining halaman dinamis atau pemetaan ulang baris. |
Ganti |
NvidiaPageRetirement |
Peristiwa |
Pengemudi GPU telah menandai halaman memori untuk pensiun. Ini dapat terjadi jika ada kesalahan bit ganda tunggal atau dua kesalahan bit tunggal ditemui di alamat yang sama. |
Tidak ada |
Peringatan NvidiaXid [Kode] |
Peristiwa |
Setiap kejadian XIDs selain yang didefinisikan dalam daftar ini menghasilkan peristiwa ini. |
Tidak ada |
Masalah kesehatan node runtime
Nama | Kepelikan | Deskripsi |
---|---|---|
PodStuckTerminating |
Ketentuan |
Sebuah Pod sedang atau macet terminating untuk waktu yang berlebihan, yang dapat disebabkan oleh kesalahan CRI yang mencegah perkembangan status pod. |
%sRepeatedRestart |
Peristiwa |
Memulai ulang layanan systemd apa pun pada node (diformat menggunakan nama unit selubung judul). |
ContainerRuntimeFailed |
Peristiwa |
Runtime container gagal membuat container, kemungkinan terkait dengan masalah yang dilaporkan jika terjadi berulang kali. |
KubeletFailed |
Peristiwa |
Kubelet memasuki keadaan gagal. |
LivenessProbeFailures |
Peristiwa |
Kegagalan probe keaktifan terdeteksi, berpotensi menunjukkan masalah kode aplikasi atau nilai batas waktu yang tidak mencukupi jika terjadi berulang kali. |
ReadinessProbeFailures |
Peristiwa |
Kegagalan probe kesiapan terdeteksi, berpotensi menunjukkan masalah kode aplikasi atau nilai batas waktu yang tidak mencukupi jika terjadi berulang kali. |
ServiceFailedToStart |
Peristiwa |
Unit systemd gagal memulai. |
Masalah kesehatan simpul penyimpanan
Nama | Kepelikan | Deskripsi |
---|---|---|
XFSSmallAverageClusterSize |
Ketentuan |
Ukuran XFS Average Cluster kecil, menunjukkan fragmentasi ruang kosong yang berlebihan yang dapat mencegah pembuatan file meskipun ada inode atau ruang kosong yang tersedia. |
EtcHostsMountFailed |
Peristiwa |
Pemasangan kubelet yang dihasilkan |
IODelays |
Peristiwa |
Penundaan input atau output terdeteksi dalam suatu proses, berpotensi menunjukkan penyediaan input-output yang tidak mencukupi jika berlebihan. |
KubeletDiskUsageSlow |
Peristiwa |
Kubelet melaporkan penggunaan disk yang lambat saat mencoba mengakses sistem file, berpotensi menunjukkan masalah input-output atau sistem file disk yang tidak mencukupi. |