Pantau data cluster dengan Amazon CloudWatch - Amazon EKS

Bantu tingkatkan halaman ini

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pantau data cluster dengan Amazon CloudWatch

Amazon CloudWatch adalah layanan pemantauan yang mengumpulkan metrik dan log dari sumber daya cloud Anda. CloudWatch menyediakan beberapa metrik Amazon EKS dasar secara gratis saat menggunakan cluster baru yang versi 1.28 ke atas. Namun, saat menggunakan Operator CloudWatch Observabilitas sebagai add-on Amazon EKS, Anda dapat memperoleh fitur observabilitas yang disempurnakan.

Metrik dasar di Amazon CloudWatch

Untuk cluster yang versi 1.28 Kubernetes ke atas, Anda mendapatkan metrik CloudWatch vended secara gratis di namespace. AWS/EKS Tabel berikut memberikan daftar metrik dasar yang tersedia untuk versi yang didukung. Setiap metrik yang terdaftar memiliki frekuensi satu menit.

Nama metrik Deskripsi

scheduler_schedule_attempts_total

Jumlah total upaya oleh scheduler untuk menjadwalkan Pod dalam klaster selama periode tertentu. Metrik ini membantu memantau beban kerja penjadwal dan dapat menunjukkan tekanan penjadwalan atau potensi masalah dengan penempatan Pod.

Unit: Hitung

Statistik yang valid: Jumlah

scheduler_schedule_attempts_SCHEDULED

Jumlah upaya yang berhasil oleh scheduler untuk menjadwalkan Pod ke node di cluster selama periode tertentu.

Unit: Hitung

Statistik yang valid: Jumlah

scheduler_schedule_attempts_UNSCHEDULABLE

Jumlah upaya untuk menjadwalkan Pod yang tidak dapat dijadwalkan untuk periode tertentu karena kendala yang valid, seperti CPU atau memori yang tidak mencukupi pada sebuah node.

Unit: Hitung

Statistik yang valid: Jumlah

scheduler_schedule_attempts_ERROR

Jumlah upaya untuk menjadwalkan Pod yang gagal untuk periode tertentu karena masalah internal dengan scheduler itu sendiri, seperti masalah konektivitas API Server.

Unit: Hitung

Statistik yang valid: Jumlah

scheduler_pending_pods

Jumlah total Pod yang tertunda yang akan dijadwalkan oleh scheduler di klaster selama periode tertentu.

Unit: Hitung

Statistik yang valid: Jumlah

scheduler_pending_pods_ACTIVEQ

Jumlah Pod yang tertunda di ActiveQ, yang menunggu untuk dijadwalkan di cluster untuk periode tertentu.

Unit: Hitung

Statistik yang valid: Jumlah

scheduler_pending_pods_UNSCHEDULABLE

Jumlah Pod yang tertunda yang coba dijadwalkan dan gagal oleh penjadwal, dan disimpan dalam keadaan tidak dapat dijadwalkan untuk dicoba lagi.

Unit: Hitung

Statistik yang valid: Jumlah

scheduler_pending_pods_BACKOFF

Jumlah Pod yang tertunda backoffQ dalam status backoff yang menunggu periode backoff mereka berakhir.

Unit: Hitung

Statistik yang valid: Jumlah

scheduler_pending_pods_GATED

Jumlah Pod yang tertunda yang saat ini menunggu dalam keadaan terjaga keamanannya karena tidak dapat dijadwalkan sampai memenuhi persyaratan yang diperlukan.

Unit: Hitung

Statistik yang valid: Jumlah

apiserver_request_total

Jumlah permintaan HTTP yang dibuat di semua server API di cluster.

Unit: Hitung

Statistik yang valid: Jumlah

apiserver_request_total_4XX

Jumlah permintaan HTTP yang dibuat ke semua server API di cluster yang menghasilkan kode status 4XX (kesalahan klien).

Unit: Hitung

Statistik yang valid: Jumlah

apiserver_request_total_429

Jumlah permintaan HTTP yang dibuat untuk semua server API di cluster yang menghasilkan kode 429 status, yang terjadi ketika klien melebihi ambang batas batas tingkat.

Unit: Hitung

Statistik yang valid: Jumlah

apiserver_request_total_5XX

Jumlah permintaan HTTP yang dibuat ke semua server API di cluster yang menghasilkan kode status 5XX (kesalahan server).

Unit: Hitung

Statistik yang valid: Jumlah

apiserver_request_total_LIST_PODS

Jumlah permintaan LIST Pod yang dibuat untuk semua server API di cluster.

Unit: Hitung

Statistik yang valid: Jumlah

apiserver_request_duration_seconds_PUT_P99

Persentil ke-99 latensi untuk PUT permintaan dihitung dari semua permintaan di semua server API di cluster. Merupakan waktu respons di bawah mana 99% dari semua PUT permintaan diselesaikan.

Unit: Detik

Statistik yang valid: Rata-rata

apiserver_request_duration_seconds_PATCH_P99

Persentil ke-99 latensi untuk PATCH permintaan dihitung dari semua permintaan di semua server API di cluster. Merupakan waktu respons di bawah mana 99% dari semua PATCH permintaan diselesaikan.

Unit: Detik

Statistik yang valid: Rata-rata

apiserver_request_duration_seconds_POST_P99

Persentil ke-99 latensi untuk POST permintaan dihitung dari semua permintaan di semua server API di cluster. Merupakan waktu respons di bawah mana 99% dari semua POST permintaan diselesaikan.

Unit: Detik

Statistik yang valid: Rata-rata

apiserver_request_duration_seconds_GET_P99

Persentil ke-99 latensi untuk GET permintaan dihitung dari semua permintaan di semua server API di cluster. Merupakan waktu respons di bawah mana 99% dari semua GET permintaan diselesaikan.

Unit: Detik

Statistik yang valid: Rata-rata

apiserver_request_duration_seconds_LIST_P99

Persentil ke-99 latensi untuk LIST permintaan dihitung dari semua permintaan di semua server API di cluster. Merupakan waktu respons di bawah mana 99% dari semua LIST permintaan diselesaikan.

Unit: Detik

Statistik yang valid: Rata-rata

apiserver_request_duration_seconds_DELETE_P99

Persentil ke-99 latensi untuk DELETE permintaan dihitung dari semua permintaan di semua server API di cluster. Merupakan waktu respons di bawah mana 99% dari semua DELETE permintaan diselesaikan.

Unit: Detik

Statistik yang valid: Rata-rata

apiserver_current_inflight_requests_MUTATING

Jumlah permintaan mutasi (POST,, PUTDELETE,PATCH) yang saat ini sedang diproses di semua server API di cluster. Metrik ini mewakili permintaan yang sedang dalam penerbangan dan belum menyelesaikan pemrosesan.

Unit: Hitung

Statistik yang valid: Jumlah

apiserver_current_inflight_requests_READONLY

Jumlah permintaan hanya-baca (GET,LIST) yang saat ini sedang diproses di semua server API di cluster. Metrik ini mewakili permintaan yang sedang dalam penerbangan dan belum menyelesaikan pemrosesan.

Unit: Hitung

Statistik yang valid: Jumlah

apiserver_admission_webhook_request_total

Jumlah permintaan webhook masuk yang dibuat di semua server API di cluster.

Unit: Hitung

Statistik yang valid: Jumlah

apiserver_admission_webhook_request_total_ADMIT

Jumlah permintaan webhook masuk yang bermutasi yang dibuat di semua server API di cluster.

Unit: Hitung

Statistik yang valid: Jumlah

apiserver_admission_webhook_request_total_VALIDATING

Jumlah permintaan webhook masuk yang memvalidasi yang dibuat di semua server API di cluster.

Unit: Hitung

Statistik yang valid: Jumlah

apiserver_admission_webhook_rejection_count

Jumlah permintaan webhook masuk yang dibuat di semua server API di cluster yang ditolak.

Unit: Hitung

Statistik yang valid: Jumlah

apiserver_admission_webhook_rejection_count_ADMIT

Jumlah permintaan webhook penerimaan yang bermutasi yang dibuat di semua server API di cluster yang ditolak.

Unit: Hitung

Statistik yang valid: Jumlah

apiserver_admission_webhook_rejection_count_VALIDATING

Jumlah permintaan webhook masuk yang memvalidasi yang dibuat di semua server API di cluster yang ditolak.

Unit: Hitung

Statistik yang valid: Jumlah

apiserver_admission_webhook_admission_duration_seconds

Persentil ke-99 latensi untuk permintaan webhook penerimaan pihak ketiga dihitung dari semua permintaan di semua server API di cluster. Merupakan waktu respons di bawah mana 99% dari semua permintaan webhook penerimaan pihak ketiga diselesaikan.

Unit: Detik

Statistik yang valid: Rata-rata

apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99

Persentil ke-99 latensi untuk permintaan webhook penerimaan bermutasi pihak ketiga dihitung dari semua permintaan di semua server API di cluster. Merupakan waktu respons di bawah mana 99% dari semua permintaan webhook penerimaan bermutasi pihak ketiga diselesaikan.

Unit: Detik

Statistik yang valid: Rata-rata

apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99

Persentil ke-99 latensi untuk permintaan webhook masuk yang memvalidasi pihak ketiga dihitung dari semua permintaan di semua server API di cluster. Merupakan waktu respons di bawah mana 99% dari semua permintaan webhook penerimaan validasi pihak ketiga diselesaikan.

Unit: Detik

Statistik yang valid: Rata-rata

apiserver_storage_size_bytes

Ukuran fisik dalam byte file database penyimpanan etcd yang digunakan oleh server API di cluster. Metrik ini mewakili ruang disk aktual yang dialokasikan untuk penyimpanan.

Unit: Bytes

Statistik yang valid: Maksimum

Operator CloudWatch Observabilitas Amazon

Amazon CloudWatch Observability mengumpulkan log, metrik, dan data penelusuran waktu nyata. Ini mengirim mereka ke Amazon CloudWatch dan AWS X-Ray. Anda dapat menginstal add-on ini untuk mengaktifkan Sinyal CloudWatch Aplikasi dan CloudWatch Wawasan Kontainer dengan peningkatan observabilitas untuk Amazon EKS. Ini membantu Anda memantau kesehatan dan kinerja infrastruktur dan aplikasi kontainer Anda. Operator CloudWatch Observabilitas Amazon dirancang untuk menginstal dan mengonfigurasi komponen yang diperlukan.

Amazon EKS mendukung Operator CloudWatch Observabilitas sebagai add-on Amazon EKS. Add-on ini memungkinkan Container Insights pada node pekerja Linux dan Windows di cluster. Untuk mengaktifkan Wawasan Kontainer di Windows, versi add-on Amazon EKS harus 1.5.0 atau lebih tinggi. Saat ini, Sinyal CloudWatch Aplikasi tidak didukung di Amazon EKS Windows.

Topik di bawah ini menjelaskan cara memulai menggunakan CloudWatch Observability Operator untuk kluster Amazon EKS Anda.