Alarm lain yang mungkin Anda pertimbangkan

CloudWatch Alarm yang disarankan untuk Layanan Amazon OpenSearch

CloudWatch alarm melakukan tindakan ketika CloudWatch metrik melebihi nilai yang ditentukan untuk beberapa waktu. Misalnya, Anda mungkin AWS ingin mengirim email jika status kesehatan klaster Anda lebih dari satu menit. red Bagian ini mencakup beberapa alarm yang direkomendasikan untuk OpenSearch Layanan Amazon dan cara menanggapinya.

Anda dapat secara otomatis menyebarkan alarm ini menggunakan. CloudFormation Untuk tumpukan sampel, lihat GitHubrepositori terkait.

catatan

Jika Anda menerapkan CloudFormation tumpukan, KMSKeyInaccessible alarm KMSKeyError dan akan ada dalam Insufficient Data status karena metrik ini hanya muncul jika domain mengalami masalah dengan kunci enkripsi.

Untuk informasi selengkapnya tentang mengonfigurasi alarm, lihat Membuat CloudWatchAlarm Amazon di Panduan Pengguna Amazon CloudWatch .

Alarm	Masalah
Maksimum `ClusterStatus.red` adalah > = 1 untuk 1 menit, 1 kali berturut-turut	Setidaknya satu serpihan utama dan replika yang tidak dialokasikan untuk simpul. Lihat Status klaster merah.
`ClusterStatus.yellow`maksimum adalah> = 1 selama 1 menit, 5 kali berturut-turut	Setidaknya satu serpihan replika tidak dialokasikan ke simpul. Lihat Status klaster kuning.
Minimum `FreeStorageSpace`adalah <= 20480 selama 1 menit, 1 kali berturut-turut	Sebuah simpul di klaster Anda turun ke 20 GiB ruang penyimpanan gratis. Lihat Kurangnya ruang penyimpanan yang tersedia. Nilai ini berdasarkan MiB, jadi bukan 20480, sebaiknya atur ke 25% dari ruang penyimpanan untuk setiap simpul.
`ClusterIndexWritesBlocked` adalah > = 1 untuk 5 menit, 1 kali berturut-turut	Klaster Anda memblokir permintaan tulis. Lihat ClusterBlockException.
Minimum `Nodes` adalah < x selama 1 hari, 1 kali berturut-turut	x adalah jumlah simpul dalam klaster Anda. Alarm ini menunjukkan bahwa setidaknya satu simpul di klaster Anda telah tidak terjangkau untuk satu hari. Lihat Simpul klaster yang gagal.
Maksimum `AutomatedSnapshotFailure` adalah > = 1 untuk 1 menit, 1 kali berturut-turut	Sebuah snapshot otomatis gagal. Kegagalan ini sering merupakan hasil dari status kesehatan klaster merah. Lihat Status klaster merah. Untuk ringkasan semua snapshot otomatis dan beberapa informasi tentang kegagalan, cobalah salah satu permintaan berikut: `GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all`
Maksimum `CPUUtilization` atau `WarmCPUUtilization` adalah >= 80% untuk 15 menit, 3 kali berturut-turut	Pemanfaatan CPU 100% kadang-kadang dapat terjadi, tetapi penggunaan tinggi yang berkelanjutan bermasalah. Pertimbangkan untuk menggunakan jenis instans yang lebih besar atau menambahkan instans.
`JVMMemoryPressure`maksimum adalah> = 95% selama 1 menit, 3 kali berturut-turut	Klaster bisa mengalami kesalahan kehabisan memori jika penggunaan meningkat. Pertimbangkan penskalaan secara vertikal. OpenSearch Layanan menggunakan setengah dari RAM instance untuk heap Java, hingga ukuran heap 32 GiB. Anda dapat menskalakan instans secara vertikal hingga 64 GiB RAM, di mana Anda dapat menskalakan secara horizontal dengan menambahkan instans.
`OldGenJVMMemoryPressure`maksimum adalah> = 80% selama 1 menit, 3 kali berturut-turut
Maksimum `MasterCPUUtilization` adalah > >= 50% untuk 15 menit, 3 kali berturut-turut	Pertimbangkan untuk menggunakan tipe instans yang lebih besar untuk simpul utama khusus. Karena peran mereka dalam stabilitas klaster dan deployment biru/hijau, simpul utama khusus harus memiliki penggunaan CPU yang lebih rendah dari simpul data.
`MasterJVMMemoryPressure`maksimum adalah> = 95% selama 1 menit, 3 kali berturut-turut
`MasterOldGenJVMMemoryPressure`maksimum adalah> = 80% selama 1 menit, 3 kali berturut-turut
`KMSKeyError` adalah > = 1 untuk 1 menit, 1 kali berturut-turut	Kunci AWS KMS enkripsi yang digunakan untuk mengenkripsi data saat istirahat di domain Anda dinonaktifkan. Aktifkan kembali untuk mengembalikan operasi normal. Untuk informasi selengkapnya, lihat Enkripsi data saat istirahat untuk OpenSearch Layanan Amazon.
`KMSKeyInaccessible` adalah > = 1 untuk 1 menit, 1 kali berturut-turut	Kunci AWS KMS enkripsi yang digunakan untuk mengenkripsi data saat istirahat di domain Anda telah dihapus atau telah mencabut hibahnya ke Layanan. OpenSearch Anda tidak dapat memulihkan domain yang berada dalam keadaan ini. Namun, jika Anda memiliki snapshot manual, Anda dapat menggunakannya untuk bermigrasi ke domain baru. Untuk mempelajari selengkapnya, lihat Enkripsi data saat istirahat untuk OpenSearch Layanan Amazon.
`shards.active`adalah> = 30000 selama 1 menit, 1 waktu berturut-turut	Jumlah total pecahan primer dan replika aktif lebih dari 30.000. Anda mungkin memutar indeks Anda terlalu sering. Pertimbangkan untuk menggunakan ISM untuk menghapus indeks setelah mencapai usia tertentu.
`5xx`alarm >= 10% dari `OpenSearchRequests`	Satu atau beberapa node data mungkin kelebihan beban, atau permintaan gagal diselesaikan dalam periode batas waktu idle. Pertimbangkan untuk beralih ke jenis instance yang lebih besar atau menambahkan lebih banyak node ke cluster. Konfirmasikan bahwa Anda mengikuti praktik terbaik untuk arsitektur shard dan cluster.
`MasterReachableFromNode`Maksimal < 1 selama 5 menit, 1 kali berturut-turut	Alarm ini menunjukkan bahwa node master berhenti atau tidak dapat dijangkau. Kegagalan ini biasanya merupakan hasil dari masalah konektivitas jaringan atau masalah AWS ketergantungan.
`ThreadpoolWriteQueue`Rata-rata adalah >= 100 selama 1 menit, 1 waktu berturut-turut	Cluster mengalami konkurensi pengindeksan tinggi. Meninjau dan mengontrol permintaan pengindeksan, atau meningkatkan sumber daya klaster.
`ThreadpoolSearchQueue`Rata-rata adalah> = 500 selama 1 menit, 1 waktu berturut-turut	Cluster mengalami konkurensi pencarian yang tinggi. Pertimbangkan untuk menskalakan klaster Anda. Anda juga dapat meningkatkan ukuran antrian pencarian, tetapi meningkatkannya secara berlebihan dapat menyebabkan kesalahan memori.
`ThreadpoolSearchQueue`maksimum adalah> = 5000 selama 1 menit, 1 kali berturut-turut
Kenaikan `ThreadpoolSearchRejected` SUM adalah >=1 {ekspresi matematika DIFF ()} selama 1 menit, 1 waktu berturut-turut	Alarm ini memberi tahu Anda tentang masalah domain yang mungkin memengaruhi kinerja dan stabilitas.
Kenaikan `ThreadpoolWriteRejected` SUM adalah >=1 {ekspresi matematika DIFF ()} selama 1 menit, 1 waktu berturut-turut

catatan

Jika Anda hanya ingin melihat metrik, lihatMemantau metrik OpenSearch klaster dengan Amazon CloudWatch.

Alarm lain yang mungkin Anda pertimbangkan

Pertimbangkan untuk mengonfigurasi alarm berikut tergantung pada fitur OpenSearch Layanan yang sering Anda gunakan.

Alarm	Isu
`WarmFreeStorageSpace`adalah> = 10%	Anda telah mencapai 10% dari total penyimpanan hangat gratis Anda. `WarmFreeStorageSpace`mengukur jumlah ruang penyimpanan hangat gratis Anda di MiB. UltraWarm menggunakan Amazon S3 daripada disk yang terpasang.
`HotToWarmMigrationQueueSize`adalah> = 20 selama 1 menit, 3 kali berturut-turut	Sejumlah besar indeks secara bersamaan bergerak dari panas ke UltraWarm penyimpanan. Pertimbangkan untuk menskalakan klaster Anda.
`HotToWarmMigrationSuccessLatency`adalah> = 1 hari, 1 kali berturut-turut	Konfigurasikan alarm ini sehingga Anda diberi tahu jika latensi `HotToWarmMigrationSuccessCount` x lebih besar dari 24 jam jika Anda mencoba memutar indeks harian.
`WarmJVMMemoryPressure`maksimum adalah> = 95% selama 1 menit, 3 kali berturut-turut	Klaster bisa mengalami kesalahan kehabisan memori jika penggunaan meningkat. Pertimbangkan penskalaan vertikal. OpenSearch Layanan menggunakan setengah dari RAM instance untuk heap Java, hingga ukuran heap 32 GiB. Anda dapat menskalakan instans secara vertikal hingga 64 GiB RAM, di mana Anda dapat menskalakan secara horizontal dengan menambahkan instans.
`WarmOldGenJVMMemoryPressure`maksimum adalah> = 80% selama 1 menit, 3 kali berturut-turut
`WarmToColdMigrationQueueSize`adalah> = 20 selama 1 menit, 3 kali berturut-turut	Sejumlah besar indeks secara bersamaan berpindah dari UltraWarm ke cold storage. Pertimbangkan untuk menskalakan klaster Anda.
`HotToWarmMigrationFailureCount` adalah > = 1 untuk 1 menit, 1 kali berturut-turut	Migrasi mungkin gagal selama snapshot, relokasi pecahan, atau penggabungan paksa. Kegagalan selama snapshot atau relokasi serpihan biasanya karena kegagalan simpul atau masalah konektivitas S3. Kurangnya ruang disk biasanya menjadi penyebab kegagalan penggabungan paksa.
`WarmToColdMigrationFailureCount` adalah > = 1 untuk 1 menit, 1 kali berturut-turut	Migrasi biasanya gagal ketika upaya untuk memigrasikan metadata indeks ke penyimpanan dingin gagal. Kegagalan juga dapat terjadi ketika status cluster indeks hangat sedang dihapus.
`WarmToColdMigrationLatency`adalah> = 1 hari, 1 kali berturut-turut	Konfigurasikan alarm ini sehingga Anda diberi tahu jika latensi `WarmToColdMigrationSuccessCount` x lebih besar dari 24 jam jika Anda mencoba memutar indeks harian.
`AlertingDegraded` adalah > = 1 untuk 1 menit, 1 kali berturut-turut	Entah indeks peringatan berwarna merah, atau satu atau lebih node tidak sesuai jadwal.
`ADPluginUnhealthy` adalah > = 1 untuk 1 menit, 1 kali berturut-turut	Plugin deteksi anomali tidak berfungsi dengan baik, baik karena tingkat kegagalan yang tinggi atau karena salah satu indeks yang digunakan berwarna merah.
`AsynchronousSearchFailureRate` adalah > = 1 untuk 1 menit, 1 kali berturut-turut	Setidaknya satu pencarian asinkron gagal di menit terakhir, yang kemungkinan berarti node koordinator gagal. Siklus hidup permintaan pencarian asinkron dikelola hanya pada node koordinator, jadi jika koordinator turun, permintaan gagal.
`AsynchronousSearchStoreHealth` adalah > = 1 untuk 1 menit, 1 kali berturut-turut	Kesehatan penyimpanan respons pencarian asinkron dalam indeks bertahan berwarna merah. Anda mungkin menyimpan respons asinkron besar, yang dapat mengacaukan klaster. Cobalah untuk membatasi respons penelusuran asinkron Anda hingga 10 MB atau kurang.
`SQLUnhealthy`adalah> = 1 selama 1 menit, 3 kali berturut-turut	Plugin SQL mengembalikan kode respons 5 xx atau meneruskan kueri DSL yang tidak valid ke. OpenSearch Memecahkan masalah permintaan yang klien Anda buat untuk plugin.
`LTRStatus.red` adalah > = 1 untuk 1 menit, 1 kali berturut-turut	Setidaknya salah satu indeks yang diperlukan untuk menjalankan plugin Learning to Rank memiliki pecahan primer yang hilang dan tidak berfungsi.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Praktik terbaik

Mengukur domain