OPS11-BP02 Lakukan analisis pasca-insiden - Pilar Keunggulan Operasional

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

OPS11-BP02 Lakukan analisis pasca-insiden

Tinjau peristiwa yang memengaruhi pelanggan dan identifikasi faktor yang berkontribusi serta tindakan pencegahannya. Gunakan informasi ini untuk mengembangkan langkah-langkah mitigasi untuk meminimalkan atau mencegah kemungkinan terjadi lagi. Kembangkan prosedur untuk respons efektif dan cepat. Komunikasikan faktor-faktor yang berkontribusi dan tindakan-tindakan korektif yang diperlukan, yang disesuaikan dengan audiens target.

Hasil yang diinginkan:

  • Anda telah menetapkan proses manajemen insiden yang mencakup analisis pasca-insiden.

  • Anda menerapkan rencana observabilitas untuk mengumpulkan data tentang peristiwa.

  • Dengan data ini, Anda memahami dan mengumpulkan metrik yang mendukung proses analisis pasca-insiden Anda.

  • Anda belajar dari insiden untuk meningkatkan hasil di masa depan.

Anti-pola umum:

  • Anda mengelola server aplikasi. Kira-kira setiap 23 jam 55 menit, semua sesi aktif Anda dihapus. Anda berupaya mengidentifikasi masalah yang terjadi di server aplikasi Anda. Anda menduga bahwa masalah ini mungkin masalah jaringan, tetapi tidak dapat memperoleh bantuan dari tim jaringan karena mereka terlalu sibuk. Anda tidak menetapkan proses di awal yang dapat Anda jadikan panduan untuk mendapatkan dukungan dan mengumpulkan informasi yang dibutuhkan guna mengetahui masalah yang sedang terjadi.

  • Anda mengalami kehilangan data di dalam beban kerja Anda. Hal ini baru pertama kali terjadi dan penyebabnya belum jelas. Anda menganggap bahwa kejadian ini tidak penting karena Anda dapat membuat ulang data. Kehilangan data makin sering terjadi dan memengaruhi pelanggan Anda. Hal ini juga menambah beban operasional Anda karena harus memulihkan data yang hilang.

Manfaat menjalankan praktik terbaik ini:

  • Anda memiliki proses yang telah ditetapkan di awal untuk menentukan komponen, kondisi, tindakan, dan peristiwa yang berkontribusi terhadap suatu insiden, yang membantu Anda mengidentifikasi peluang untuk perbaikan.

  • Anda menggunakan data dari analisis pasca-insiden untuk melakukan perbaikan.

Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan: Tinggi

Panduan implementasi

Gunakan sebuah proses untuk menentukan faktor yang berkontribusi. Tinjau semua insiden yang memengaruhi pelanggan. Buatlah sebuah proses untuk mengidentifikasi dan membuat dokumentasi dari faktor-faktor yang berkontribusi terhadap sebuah insiden agar Anda dapat mengembangkan langkah-langkah mitigasi untuk membatasi atau mencegah kejadian serupa serta mengembangkan prosedur untuk merespons dengan cepat dan efektif. Komunikasikan akar masalah insiden sebagaimana mestinya, dan sesuaikan komunikasi dengan audiens target Anda. Bagikan pembelajaran secara terbuka di dalam organisasi Anda.

Langkah-langkah implementasi

  1. Kumpulkan meterik-metrik seperti perubahan deployment, perubahan konfigurasi, waktu mulai insiden, waktu alarm, waktu keterlibatan, waktu mulai mitigasi, dan waktu penyelesaian insiden.

  2. Jelaskan titik-titik waktu utama pada kronologi (timeline) untuk memahami peristiwa insiden.

  3. Ajukan pertanyaan-pertanyaan berikut:

    1. Apakah Anda dapat mempersingkat waktu deteksi?

    2. Apakah ada pembaruan metrik dan alarm yang dapat mendeteksi insiden lebih dini?

    3. Apakah Anda dapat mempersingkat waktu diagnosis?

    4. Apakah ada pembaruan pada rencana respons atau rencana eskalasi Anda yang melibatkan perespons yang tepat lebih dini?

    5. Apakah Anda dapat mempersingkat waktu mitigasi?

    6. Apakah ada langkah-langkah runbook atau panduan yang dapat Anda tambahkan atau tingkatkan?

    7. Apakah Anda dapat mencegah terjadinya insiden di masa mendatang?

  4. Buat daftar periksa dan tindakan. Lacak dan selesaikan semua tindakan.

Tingkat upaya untuk rencana implementasi: Sedang

Sumber daya

Praktik-praktik terbaik terkait:

Dokumen terkait: