Memperingatkan dasar-dasar - Amazon Managed Grafana

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memperingatkan dasar-dasar

Topik dokumentasi ini dirancang untuk ruang kerja Grafana yang mendukung Grafana versi 8.x.

Untuk ruang kerja Grafana yang mendukung Grafana versi 10.x, lihat. Bekerja di Grafana versi 10

Untuk ruang kerja Grafana yang mendukung Grafana versi 9.x, lihat. Bekerja di Grafana versi 9

Bagian ini memberikan informasi tentang konsep dasar peringatan Grafana.

Konsep peringatan

Tabel berikut menjelaskan konsep-konsep kunci dalam peringatan Grafana.

Konsep atau fitur kunci Definisi

Sumber data untuk Peringatan

Pilih sumber data yang ingin Anda kueri dan visualisasikan metrik, log, dan jejak.

Penjadwal

Mengevaluasi aturan peringatan Anda; komponen yang secara berkala menjalankan kueri terhadap sumber data. Ini hanya berlaku untuk aturan yang dikelola Grafana.

Pengelola Peringatan

Mengelola perutean dan pengelompokan instance peringatan.

Aturan peringatan

Seperangkat kriteria evaluasi kapan aturan peringatan harus ditembakkan. Aturan peringatan terdiri dari satu atau lebih pertanyaan dan ekspresi, kondisi, frekuensi evaluasi, dan durasi di mana kondisi terpenuhi. Aturan peringatan dapat menghasilkan beberapa instance peringatan.

Contoh peringatan

Sebuah instance peringatan adalah contoh dari aturan peringatan. Aturan peringatan satu dimensi memiliki satu contoh peringatan. Aturan peringatan multidimensi memiliki satu atau lebih contoh peringatan. Aturan peringatan tunggal yang cocok dengan beberapa hasil, seperti CPU terhadap 10 VM, dihitung sebagai beberapa (dalam hal ini 10) instance peringatan. Jumlah ini dapat bervariasi dari waktu ke waktu. Misalnya, aturan peringatan yang memantau penggunaan CPU untuk semua VM dalam sistem memiliki lebih banyak instance peringatan saat VM ditambahkan. Untuk informasi selengkapnya tentang kuota instance peringatan, lihat. Kuota mencapai kesalahan

Grup peringatan

Alertmanager mengelompokkan instance peringatan secara default menggunakan label untuk kebijakan notifikasi root. Ini mengontrol de-duplikasi dan grup instance peringatan yang dikirim ke titik kontak.

Titik kontak

Tentukan bagaimana kontak Anda diberi tahu saat aturan peringatan diaktifkan.

Templating pesan

Buat templat khusus yang dapat digunakan kembali dan gunakan di titik kontak.

Kebijakan pemberitahuan

Set aturan untuk di mana, kapan, dan bagaimana peringatan dikelompokkan dan diarahkan ke titik kontak.

Label dan pencocokan label

Label secara unik mengidentifikasi aturan peringatan. Mereka menghubungkan aturan peringatan dengan kebijakan pemberitahuan dan pembungkaman, menentukan kebijakan mana yang harus menanganinya dan aturan peringatan mana yang harus dibungkam.

Keheningan

Hentikan pemberitahuan dari satu atau beberapa contoh peringatan. Perbedaan antara keheningan dan waktu bisu adalah bahwa keheningan berlangsung selama jendela waktu tertentu di mana waktu bisu terjadi pada jadwal berulang. Menggunakan pencocokan label untuk membungkam instance peringatan.

Bisukan pengaturan waktu

Tentukan interval waktu saat Anda tidak ingin notifikasi baru dibuat atau dikirim. Anda dapat membekukan notifikasi peringatan untuk periode waktu berulang, seperti selama periode pemeliharaan. Harus ditautkan ke kebijakan pemberitahuan yang ada.

Sumber data peringatan

Grafana lansiran terkelola menanyakan sumber data backend berikut yang mengaktifkan peringatan.

  • Sumber data bawaan, atau dikembangkan dan dikelola oleh Grafana:,,, Prometheus (termasuk Layanan Terkelola Amazon untuk Prometheus) AlertmanagerGraphite,,,,,,,,,,,,,,,,,,,,,,,,Loki,InfluxDB,,Amazon OpenSearch Service,, Google Cloud MonitoringAmazon CloudWatch, Azure Monitor dan. MySQL PostgreSQL MSSQL OpenTSDB Oracle Azure Monitor

Peringatan pada data numerik

Data numerik yang tidak dalam format deret waktu dapat langsung diperingatkan, atau diteruskan ke Server Side Expressions. Hal ini memungkinkan untuk lebih banyak pemrosesan dan menghasilkan efisiensi dalam sumber data, dan juga dapat menyederhanakan aturan peringatan. Saat memperingatkan data numerik alih-alih data deret waktu, tidak perlu mengurangi setiap deret waktu berlabel menjadi satu angka. Sebaliknya, nomor berlabel dikembalikan ke Grafana sebagai gantinya.

Data tabular

Fitur ini didukung dengan sumber data backend yang menanyakan data tabular, termasuk sumber data SQL, seperti MySQL, Postgres, MSSQL, dan Oracle.

Kueri dengan peringatan terkelola Grafana atau Ekspresi Sisi Server dianggap numerik dengan sumber data ini:

  • Jika Format AS opsi diatur ke Table dalam kueri sumber data.

  • Jika respons tabel dikembalikan ke Grafana dari kueri hanya mencakup satu kolom numerik (misalnya, int, ganda, atau float), dan kolom string tambahan opsional.

Jika ada kolom string, maka kolom tersebut menjadi label. Nama kolom menjadi nama label, dan nilai untuk setiap baris menjadi nilai label yang sesuai. Jika beberapa baris dikembalikan, maka setiap baris harus diidentifikasi secara unik oleh labelnya.

Contoh

Jika Anda memiliki tabel MySQL yang disebut Diskspace, sebagai berikut.

Waktu Host Disk PercentFree

2021-Juni-7

web1

/dll

3

2021-Juni-7

web2

/var

4

2021-Juni-7

web3

/var

8

Anda dapat menanyakan pemfilteran data tepat waktu, tetapi tanpa mengembalikan deret waktu ke Grafana. Misalnya, peringatan yang akan dimulai per Host, Disk ketika ada kurang dari 5% ruang kosong bisa terlihat seperti berikut.

SELECT Host, Disk, CASE WHEN PercentFree < 5.0 THEN PercentFree ELSE 0 END FROM ( SELECT Host, Disk, Avg(PercentFree) FROM DiskSpace Group By Host, Disk Where __timeFilter(Time)

Query ini mengembalikan respon tabel berikut untuk Grafana.

Host Disk PercentFree

web1

/dll

3

web2

/var

4

web3

/var

0

Ketika kueri ini digunakan sebagai kondisi dalam aturan peringatan, maka kasus di mana nilainya adalah peringatan bukan nol. Akibatnya, tiga contoh peringatan diproduksi, seperti tabel berikut.

Label Status

{host = web1, disk =/dll}

Peringatan

{host = web2, disk =/var}

Peringatan

{host = web3, disk =/var}

Normal

Pengelola Peringatan

Grafana menyertakan dukungan bawaan untuk Prometheus Alertmanager. Alertmanager membantu mengelompokkan dan mengelola aturan peringatan, menambahkan lapisan orkestrasi di atas mesin peringatan. Secara default, notifikasi untuk lansiran terkelola Grafana ditangani oleh Alertmanager tertanam yang merupakan bagian dari Grafana inti. Anda dapat mengonfigurasi titik kontak, kebijakan notifikasi, dan templat Alertmanager dari UI peringatan Grafana dengan memilih opsi Grafana dari tarik-turun Alertmanager.

Grafana alert memiliki dukungan untuk konfigurasi Alertmanager eksternal (untuk informasi selengkapnya tentang Alertmanager sebagai sumber data eksternal, lihat). Connect ke sumber data Alertmanager Saat Anda menambahkan Alertmanager eksternal, dropdown Alertmanager menampilkan daftar sumber data Alertmanager eksternal yang tersedia. Pilih sumber data untuk membuat dan mengelola peringatan untuk sumber data Cortex atau Loki mandiri.

Keadaan dan kesehatan aturan peringatan

Keadaan dan kesehatan aturan peringatan membantu Anda memahami beberapa indikator status utama tentang peringatan Anda. Ada tiga komponen utama: status peringatan, status aturan peringatan, dan kesehatan aturan peringatan. Meskipun terkait, setiap komponen menyampaikan informasi yang sedikit berbeda.

Status aturan peringatan

  • Normal — Tidak ada deret waktu yang dikembalikan oleh mesin evaluasi dalam Firing keadaan Pending atau.

  • Tertunda — Setidaknya satu dari deret waktu yang dikembalikan oleh mesin evaluasi adalahPending.

  • Penembakan — Setidaknya satu dari deret waktu yang dikembalikan oleh mesin evaluasi adalahFiring.

Status peringatan

  • Normal — Kondisi untuk aturan peringatan salah untuk setiap deret waktu yang dikembalikan oleh mesin evaluasi.

  • Peringatan — Kondisi aturan peringatan berlaku untuk setidaknya satu deret waktu yang dikembalikan oleh mesin evaluasi. Durasi di mana kondisi harus benar sebelum peringatan dimulai, jika disetel, terpenuhi atau telah terlampaui.

  • Tertunda — Kondisi aturan peringatan berlaku untuk setidaknya satu deret waktu yang dikembalikan oleh mesin evaluasi. Durasi kondisinya harus benar sebelum peringatan dimulai, jika disetel, belum terpenuhi.

  • NoData— Aturan peringatan belum mengembalikan deret waktu, semua nilai untuk deret waktu adalah nol, atau semua nilai untuk deret waktu adalah nol.

  • Kesalahan — Kesalahan saat mencoba mengevaluasi aturan peringatan.

Memperingatkan kesehatan aturan

  • Ok - Tidak ada kesalahan saat mengevaluasi aturan peringatan.

  • Kesalahan — Kesalahan saat mengevaluasi aturan peringatan.

  • NoData- Tidak adanya data dalam setidaknya satu deret waktu yang dikembalikan selama evaluasi aturan.