REL06-BP06 Meninjau cakupan dan metrik pemantauan secara berkala - AWS Kerangka Well-Architected

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

REL06-BP06 Meninjau cakupan dan metrik pemantauan secara berkala

Tinjau secara berkala bagaimana pemantauan beban kerja diterapkan, dan sesuaikan peninjauan Anda seiring perkembangan beban kerja Anda dan arsitekturnya. Pengauditan rutin atas pemantauan Anda membantu mengurangi risiko indikator masalah yang terlewatkan atau diabaikan dan lebih membantu beban kerja Anda memenuhi sasaran ketersediaannya.

Pemantauan yang efektif bergantung pada metrik bisnis utama, yang berkembang seiring dengan perubahan prioritas bisnis Anda. Proses peninjauan pemantauan Anda harus menekankan indikator tingkat layanan (SLI) dan menggabungkan wawasan dari infrastruktur, aplikasi, klien, dan pengguna Anda.

Hasil yang diinginkan: Anda memiliki strategi pemantauan yang efektif yang ditinjau dan diperbarui secara berkala, serta setelah setiap peristiwa atau perubahan signifikan. Anda memverifikasi bahwa indikator kesehatan aplikasi utama masih relevan seiring dengan perkembangan beban kerja dan kebutuhan bisnis Anda.

Anti-pola umum:

  • Anda hanya mengumpulkan metrik default.

  • Anda membuat strategi pemantauan, tetapi Anda tidak pernah meninjaunya.

  • Anda tidak membahas pemantauan ketika ada deployment perubahan besar.

  • Anda memercayai metrik yang sudah usang untuk menentukan kesehatan beban kerja.

  • Tim operasi Anda kewalahan dengan peringatan positif palsu karena metrik dan ambang batas yang sudah usang.

  • Anda kekurangan observabilitas atas komponen aplikasi yang tidak dipantau.

  • Anda hanya fokus pada metrik teknis tingkat rendah dan tidak memasukkan metrik bisnis dalam pemantauan Anda.

Manfaat menjalankan praktik terbaik ini: Ketika Anda secara teratur meninjau pemantauan Anda, Anda dapat mengantisipasi potensi masalah dan memverifikasi bahwa Anda mampu mendeteksinya. Hal ini juga memungkinkan Anda menemukan titik buta yang mungkin Anda lewati dalam peninjauan sebelumnya, yang kemudian meningkatkan kemampuan Anda untuk mendeteksi masalah.

Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan: Sedang

Panduan implementasi

Tinjau metrik dan cakupan pemantauan selama proses peninjauan kesiapan operasional (ORR) Anda. Lakukan peninjauan kesiapan operasional berkala dengan jadwal yang konsisten untuk mengevaluasi apakah ada kesenjangan antara beban kerja Anda saat ini dan pemantauan yang telah Anda konfigurasikan. Tetapkan ritme teratur untuk peninjauan performa operasional dan berbagi pengetahuan untuk meningkatkan kemampuan Anda dalam mencapai kinerja tim operasional yang lebih tinggi. Validasi apakah ambang batas peringatan yang ada masih memadai, dan periksa dalam situasi apa tim operasional menerima peringatan positif palsu atau tidak memantau aspek aplikasi yang harus dipantau.

Kerangka Kerja Analisis Ketahanan memberikan panduan berguna yang dapat membantu Anda menavigasi proses ini. Fokus kerangka kerja ini adalah untuk mengidentifikasi mode kegagalan potensial serta kontrol preventif dan korektif yang dapat Anda gunakan untuk memitigasi dampaknya. Pengetahuan ini dapat membantu Anda mengidentifikasi metrik dan peristiwa yang tepat untuk dipantau dan diwaspadai.

Langkah-langkah implementasi

  1. Jadwalkan dan lakukan peninjauan dasbor beban kerja secara teratur. Anda mungkin memiliki irama yang berbeda untuk kedalaman inspeksi Anda.

  2. Inspeksi apakah ada kecenderungan dalam metrik-metrik tersebut. Bandingkan nilai-nilai metrik dengan nilai-nilai historis untuk melihat apakah ada tren yang mungkin mengindikasikan bahwa sesuatu perlu diselidiki. Contohnya antara lain: peningkatan latensi, penurunan fungsi bisnis utama, dan peningkatan respons-respons kegagalan.

  3. Periksa pencilan dan anomali dalam metrik Anda, yang dapat tertutupi oleh rata-rata atau median. Perhatikan nilai tertinggi dan terendah selama jangka waktu tersebut, dan selidiki penyebab observasi yang jauh di luar batas normal. Saat Anda terus menghilangkan penyebab-penyebab ini, Anda dapat memperketat batas metrik yang diharapkan sebagai respons terhadap peningkatan konsistensi kinerja beban kerja Anda.

  4. Cari perubahan-perubahan mendadak dalam perilaku. Perubahan cepat yang terjadi dalam jumlah atau arah metrik dapat menandakan telah ada perubahan dalam aplikasi, atau ada faktor eksternal yang mungkin mengharuskan Anda menambahkan metrik-metrik lainnya untuk dilacak.

  5. Tinjau apakah strategi pemantauan saat ini tetap relevan untuk aplikasi. Berdasarkan analisis insiden sebelumnya (atau Kerangka Kerja Analisis Ketahanan), evaluasi apakah ada aspek tambahan dari aplikasi yang harus dimasukkan ke dalam cakupan pemantauan.

  6. Tinjau metrik Pemantauan Pengguna Nyata (RUM) Anda untuk menentukan apakah ada kesenjangan dalam cakupan fungsionalitas aplikasi.

  7. Tinjau proses manajemen perubahan Anda. Perbarui prosedur Anda jika perlu untuk menyertakan langkah analisis pemantauan yang harus dilakukan sebelum Anda menyetujui perubahan.

  8. Terapkan tinjauan pemantauan sebagai bagian dari tinjauan kesiapan operasional Anda dan koreksi proses kesalahan.

Sumber daya

Praktik-praktik terbaik terkait

Dokumen terkait: