Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
AWS bekerja dengan Anda untuk menentukan metrik dan alarm untuk memberikan visibilitas ke kinerja aplikasi Anda dan infrastruktur dasarnya. AWS Kami meminta agar alarm mematuhi kriteria berikut saat mendefinisikan dan mengonfigurasi ambang batas:
Alarm hanya memasuki status “Alarm” ketika ada dampak kritis terhadap beban kerja yang dipantau (hilangnya pendapatan atau pengalaman pelanggan yang menurun yang secara signifikan mengurangi kinerja) yang memerlukan perhatian operator segera.
Alarm juga harus melibatkan resolver yang Anda tentukan untuk beban kerja pada saat yang sama, atau sebelum, melibatkan tim manajemen insiden. Insinyur manajemen insiden harus berkolaborasi dengan resolver yang Anda tentukan dalam proses mitigasi, bukan berfungsi sebagai responden lini pertama dan kemudian meningkat kepada Anda.
Ambang batas alarm harus diatur ke ambang batas dan durasi yang sesuai sehingga setiap kali alarm menyala, penyelidikan harus dilakukan. Jika alarm berkedip di antara status “Alarm” dan “OK”, dampak yang cukup akan terjadi untuk menjamin respons dan perhatian operator.
Jenis alarm:
Alarm yang menggambarkan tingkat dampak bisnis dan menyampaikan informasi yang relevan untuk deteksi kesalahan sederhana.
Burung CloudWatch kenari Amazon. Untuk informasi lebih lanjut, lihat Canary dan X-Ray tracing, dan X-Ray.
Agregat mengkhawatirkan (pemantauan dependensi)
Tabel berikut memberikan contoh alarm, semua menggunakan sistem CloudWatch pemantauan.
Nama metrik/Ambang alarm | Alarm ARN atau ID sumber daya | Jika alarm ini menyala | Jika terlibat, potong Kasus Dukungan Premium untuk layanan ini |
---|---|---|---|
Kesalahan API/ # kesalahan >= 10 untuk 10 titik data |
arn:aws:cloudwatch: us-west- 2:0000000000: Alarm: E2 Lambda-Errors MPmim |
Pemotongan tiket ke tim administrator database (DBA) |
Lambda, API Gateway |
ServiceUnavailable (Kode status Http 503) # kesalahan >=3 untuk 10 titik data (klien berbeda) dalam jendela 5 menit |
arn:aws:cloudwatch: us-west-2:xxxxx:alarm: httperrorcode503 |
Pemotongan tiket ke tim Layanan |
Lambda, API Gateway |
ThrottlingException (Kode status Http 400) # kesalahan >=3 untuk 10 titik data (klien berbeda) dalam jendela 5 menit |
arn:aws:cloudwatch: us-west-2:xxxxx:alarm: httperrorcode400 |
Pemotongan tiket ke tim Layanan |
EC2, Amazon Aurora |
Untuk detail selengkapnya, lihat Deteksi Insiden AWS dan pemantauan dan observabilitas Respons.
Output kunci:
Definisi dan konfigurasi alarm pada beban kerja Anda.
Penyelesaian detail alarm pada kuesioner orientasi.