Melakukan analisis pasca insiden Incident Manager Incident Manager Incident Manager - Incident Manager

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Melakukan analisis pasca insiden Incident Manager Incident Manager Incident Manager

Analisis pasca insiden akan memandu Anda dalam mengidentifikasi peningkatan respons insiden, termasuk waktu untuk deteksi dan mitigasi. Analisis juga dapat membantu Anda memahami akar dari insiden tersebut. Incident Manager membuat item tindakan yang direkomendasikan untuk meningkatkan respons insiden Anda.

Manfaat analisis pasca insiden
  • Meningkatkan respons insiden

  • Memahami akar dari masalah

  • Alamat akar penyebab dengan item tindakan yang dapat dikirimkan

  • Menganalisis dampak insiden

  • Menangkap dan berbagi pembelajaran dalam suatu organisasi

Apa yang tidak menggunakan analisis untuk

Analisis tidak bercacat dan tidak memanggil orang dengan nama.

“Terlepas dari apa yang kami temukan, kami memahami dan benar-benar percaya bahwa setiap orang melakukan pekerjaan terbaik yang mereka bisa, mengingat apa yang mereka ketahui pada saat itu, keterampilan dan kemampuan mereka, sumber daya yang tersedia, dan situasi yang ada.” - Norm Kerth, Retrospektif Proyek: Buku Pegangan untuk Ulasan Tim

Rincian analisis rincian analisis

Halaman detail analisis memandu Anda mengumpulkan informasi, menilai peningkatan, dan membuat item tindakan. Halaman detail analisis mirip dengan detail insiden dengan beberapa perbedaan utama seperti metrik historis, garis waktu yang dapat diedit, dan pertanyaan untuk meningkatkan insiden di future.

Gambaran Umum

Gambaran umum adalah ringkasan dari insiden tersebut. Ringkasan ini mencakup latar belakang, apa yang terjadi, mengapa hal itu terjadi, bagaimana hal itu dikurangi, durasi, dan item tindakan utama untuk mencegah insiden terjadi lagi. Ikhtisar adalah tingkat tinggi. Anda akan menjelajahi detail lebih lanjut di tab Pertanyaan analisis.

Metrik

Gunakan tab metrik untuk memvisualisasikan metrik utama dalam aplikasi Anda selama durasi insiden. Anda dapat menambahkan grafik metrik di sini yang memiliki satu atau beberapa metrik yang digambarkan dalam grafik yang sama. Metrik yang digunakan selama insiden otomatis diisi di tab ini. Kami sarankan Anda menambahkan deskripsi, judul, dan anotasi titik waktu utama selama insiden.

Beberapa titik waktu penting yang dapat Anda pertimbangkan saat menganalisis grafik metrik:

  • Perubahan penyebaran

  • Perubahan konfigurasi

  • Waktu mulai Incident

  • Waktu alarm

  • Waktu keterlibatan

  • Waktu mulai mitigasi

  • Waktu terselesaikan insiden terselesaikan

Keterbatasan:
  • CloudWatch alarm dan ekspresi metrik tidak diimpor dari insiden.

  • Metrik yang berada di Wilayah yang tidak didukung Manajer Insiden tidak diimpor dari insiden tersebut.

  • Metrik dalam akun aplikasi memerlukan konfigurasiCloudWatch-CrossAccountSharingRole sebelum membuat analisis. Untuk informasi selengkapnya tentang peran tersebut, lihat CloudWatch Konsol Lintas Wilayah Lintas Akun di panduan CloudWatch pengguna.

Timeline

Jelaskan poin waktu utama pada timeline saat Anda menyelam lebih dalam memahami insiden tersebut. Timeline insiden secara otomatis diisi di tab ini. Anda dapat menghapus titik waktu yang tidak relevan dengan analisis. Anda juga dapat menambahkan dan mengedit titik waktu untuk menggambarkan insiden dan dampaknya dengan lebih akurat.

Gunakan tab timeline untuk menjawab pertanyaan yang Anda temukan di tab Pertanyaan tentang respons insiden.

Pertanyaan

Gunakan pertanyaan Incident Manager untuk meningkatkan waktu penyelesaian insiden dalam aplikasi Anda dan mengurangi terjadinya insiden. Saat Anda menjawab pertanyaan, perbarui tab Metrik dan Timeline untuk akurasi. Pertanyaan-pertanyaan fokus pada aspek-aspek kunci dari respons insiden ini:

  • Deteksi - Bisakah Anda meningkatkan waktu untuk deteksi? Apakah ada pembaruan untuk metrik dan alarm yang akan mendeteksi insiden lebih cepat?

  • Diagnosis - Dapatkah Anda meningkatkan waktu untuk diagnosis? Apakah ada pembaruan untuk rencana respons Anda atau rencana eskalasi yang akan melibatkan responden yang benar lebih cepat?

  • Mitigasi - Dapatkah Anda meningkatkan waktu untuk mitigasi? Apakah ada langkah-langkah runbook yang dapat Anda tambahkan atau tingkatkan?

  • Pencegahan - Dapatkah Anda mencegah terjadinya insiden di future? Untuk menemukan akar penyebab insiden, Amazon menggunakan pendekatan 5-Mengapa dalam penyelidikan masalah.

Tindakan

Incident Manager membuat item tindakan yang direkomendasikan untuk Anda tinjau saat Anda menyelesaikan pertanyaan. Anda dapat memilih untuk menerima dan menyelesaikan tindakan ini dari tab ini atau Anda dapat mengabaikan tindakan ini. Anda dapat meninjau item tindakan yang diberhentikan dengan memilih item tindakan yang diberhentikan. Item tindakan adalah jenis OpsItem yang terkait dengan analisis dan insiden di OpsCenter.

Daftar Periksa

Sebelum menutup analisis, gunakan daftar periksa untuk meninjau tindakan yang harus diambil responder. Saat responden menyelesaikan tindakan dalam daftar periksa, ikon di samping tindakan berubah dari elips ke tanda centang, yang menunjukkan bahwa tindakan selesai. Jika Anda belum menyelesaikan item daftar periksa, Manajer Insiden menampilkan pesan untuk mengonfirmasi bahwa responden ingin menutup analisis tanpa menyelesaikannya.

Analisis template analisis template analisis

Template analisis menyediakan serangkaian pertanyaan yang menyelam jauh ke akar penyebab insiden. Anda dapat menggunakan jawaban Anda untuk pertanyaan-pertanyaan ini untuk meningkatkan kinerja aplikasi dan respons insiden.

AWSTemplate standar

Incident Manager menyediakan template standar pertanyaan berdasarkan responAWS insiden dan praktik terbaik analisis masalah, berjudulAWSIncidents-PostIncidentAnalysisTemplate.

Buat template analisis

Kami mendorong Anda untuk menggunakanAWSIncidents-PostIncidentAnalysisTemplate template default dan menambahkan pertanyaan atau bagian tambahan yang sesuai untuk kasus penggunaan Anda. Buat template analisis berdasarkan template default Gunakan template ini sebagai titik awal untuk membuat template analisis di akun manajemen Anda. Anda kemudian dapat menduplikasi template analisis Anda ke setiap Wilayah tempat Anda mengaktifkan Incident Manager.

Buat template analisis
  1. PanggilGetDocument tindakan dan gunakanName parameternya untuk mengunduhAWSIncidents-PostIncidentAnalysisTemplate. Untuk informasi selengkapnya tentangGetDocument sintaks, lihat Referensi Systems Manager API.

  2. Konten dalam respons berisi blok bangunan JSON untuk analisis. Gunakan blok bangunan pertanyaan untuk memasukkan pertanyaan tambahan dalam analisis. Kami menyarankan Anda menambahkan pertanyaan atau bagian diIncident questions bagian ini.

  3. Untuk membuat template baru, gunakanCreateDocument operasi dengan JSON yang diperbarui dari langkah sebelumnya. Anda harus menyertakan yang berikut, di manaAnalysis_Template_Name nama template Anda,

    • DocumentFormat: "JSON"

    • DocumentType: "ProblemAnalysisTemplate"

    • Name: "Analysis_Template_Name"

Buat analisis

  1. Untuk membuat analisis, pilih Buat analisis dari halaman detail insiden insiden insiden tertutup.

  2. Pilih template analisis untuk membuat analisis ini, dan masukkan nama deskriptif analisis.

  3. Pilih Create (Buat).

Anda dapat membuat salinan analisis lengkap atau tidak lengkap yang diformat untuk dicetak. Anda juga dapat menyimpan salinan ini sebagai PDF. Anda dapat mencetak satu analisis sekaligus. Pencetakan Batch beberapa analisis saat ini tidak didukung.

Untuk mencetak analisis yang diformat
  1. Buka konsol Incident Manager.

  2. Pilih tab Analisis.

  3. Pilih judul analisis yang ingin dicetak.

  4. Di sudut kanan atas halaman detail analisis, pilih Cetak.

  5. Di kotak dialog Analisis insiden cetak, kosongkan bagian analisis yang tidak ingin Anda sertakan dalam versi cetak. Secara bawaan, semua bagian dipilih.

  6. Pilih Cetak untuk membuka kontrol cetak lokal untuk perangkat Anda.

  7. Pilih tujuan atau format pencetakan Anda. Anda dapat memilih printer lokal atau jaringan, atau Anda dapat menyimpan analisis ke PDF. Buat perubahan apa pun, jika diinginkan, ke opsi pencetakan yang tersisa, lalu pilih Cetak.

    catatan

    Kontrol cetak lokal mengacu pada antarmuka pengguna yang disediakan oleh browser web dan perangkat Anda.

    Tujuan pencetakan adalah tujuan yang dikonfigurasi untuk, dan dapat diakses dari, perangkat Anda.