Bantu tingkatkan halaman ini
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Topik ini menjelaskan alat dan metode yang tersedia untuk memantau status kesehatan simpul di kluster Amazon EKS. Informasi tersebut mencakup kondisi node, peristiwa, dan kasus deteksi yang membantu Anda mengidentifikasi dan mendiagnosis masalah tingkat simpul. Gunakan perintah dan pola yang dijelaskan di sini untuk memeriksa sumber daya kesehatan node, menafsirkan kondisi status, dan menganalisis peristiwa node untuk pemecahan masalah operasional.
Anda bisa mendapatkan beberapa informasi kesehatan node dengan perintah Kubernetes untuk semua node. Dan jika Anda menggunakan agen pemantauan node melalui Amazon EKS Auto Mode atau add-on terkelola Amazon EKS, Anda akan mendapatkan lebih banyak variasi sinyal node untuk membantu memecahkan masalah. Deskripsi masalah kesehatan yang terdeteksi oleh agen pemantauan simpul juga tersedia di dasbor observabilitas. Untuk informasi selengkapnya, lihat Aktifkan perbaikan otomatis node dan selidiki masalah kesehatan node.
Kondisi simpul
Kondisi node mewakili masalah terminal yang membutuhkan tindakan remediasi seperti penggantian instance atau reboot.
Untuk mendapatkan kondisi untuk semua node:
kubectl get nodes -o 'custom-columns=NAME:.metadata.name,CONDITIONS:.status.conditions[*].type,STATUS:.status.conditions[*].status'
Untuk mendapatkan kondisi rinci untuk node tertentu
kubectl describe node
node-name
Contoh kondisi output dari node yang sehat:
- lastHeartbeatTime: "2024-11-21T19:07:40Z"
lastTransitionTime: "2024-11-08T03:57:40Z"
message: Monitoring for the Networking system is active
reason: NetworkingIsReady
status: "True"
type: NetworkingReady
Contoh kondisi node yang tidak sehat dengan masalah jaringan:
- lastHeartbeatTime: "2024-11-21T19:12:29Z"
lastTransitionTime: "2024-11-08T17:04:17Z"
message: IPAM-D has failed to connect to API Server which could be an issue with
IPTable rules or any other network configuration.
reason: IPAMDNotReady
status: "False"
type: NetworkingReady
Peristiwa simpul
Peristiwa node menunjukkan masalah sementara atau konfigurasi sub-optimal.
Untuk mendapatkan semua peristiwa yang dilaporkan oleh agen pemantauan node
Ketika agen pemantauan node tersedia, Anda dapat menjalankan perintah berikut.
kubectl get events --field-selector=reportingComponent=eks-node-monitoring-agent
Contoh output:
LAST SEEN TYPE REASON OBJECT MESSAGE
4s Warning SoftLockup node/ip-192-168-71-251.us-west-2.compute.internal CPU stuck for 23s
Untuk mendapatkan acara untuk semua node
kubectl get events --field-selector involvedObject.kind=Node
Untuk mendapatkan acara untuk node tertentu
kubectl get events --field-selector involvedObject.kind=Node,involvedObject.name=
node-name
Untuk menonton acara secara real-time
kubectl get events -w --field-selector involvedObject.kind=Node
Contoh keluaran acara:
LAST SEEN TYPE REASON OBJECT MESSAGE 2m Warning MemoryPressure Node/node-1 Node experiencing memory pressure 5m Normal NodeReady Node/node-1 Node became ready
Perintah pemecahan masalah umum
# Get comprehensive node status
kubectl get node node-name
-o yaml
# Watch node status changes
kubectl get nodes -w
# Get node metrics
kubectl top node