Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
REL06-BP04 Otomatiskan respons (Pemrosesan waktu nyata dan mengkhawatirkan)
Gunakan otomatisasi untuk melakukan tindakan ketika peristiwa terdeteksi, misalnya, mengganti komponen yang rusak.
Pemrosesan alarm waktu nyata secara otomatis diimplementasikan agar sistem dapat mengambil tindakan-tindakan korektif dengan cepat dan berupaya mencegah terjadinya kegagalan atau penurunan layanan ketika alarm terpicu. Respons otomatis terhadap alarm dapat mencakup penggantian komponen yang mengalami kegagalan, penyesuaian kapasitas komputasi, pengalihan lalu lintas ke host yang dalam kondisi sehat, zona ketersediaan, atau wilayah lain, dan pemberitahuan operator.
Hasil yang diinginkan: Alarm waktu nyata diidentifikasi, dan pemrosesan alarm otomatis diatur untuk meminta tindakan yang tepat yang diambil untuk mempertahankan tujuan tingkat layanan dan perjanjian tingkat layanan (). SLAs Otomatisasi dapat berupa banyak hal, dari aktivitas pemulihan diri sebuah komponen hingga failover seluruh situs.
Anti-pola umum:
-
Tidak memiliki inventaris atau katalog alarm waktu nyata utama yang jelas.
-
Tidak ada respons otomatis terhadap alarm-alarm kritis (misalnya, penskalaan otomatis berjalan ketika komputasi hampir habis).
-
Tindakan respons alarm yang kontradiktif.
-
Tidak ada prosedur operasi standar (SOPs) bagi operator untuk mengikuti ketika mereka menerima pemberitahuan peringatan.
-
Tidak memantau perubahan konfigurasi, padahal perubahan konfigurasi yang tidak terdeteksi dapat menyebabkan waktu henti terhadap beban kerja.
-
Tidak memiliki strategi untuk membatalkan perubahan konfigurasi yang tidak diinginkan.
Manfaat menerapkan praktik terbaik ini: Melakukan otomatisasi atas pemrosesan alarm dapat meningkatkan ketahanan sistem. Sistem mengambil tindakan-tindakan korektif secara otomatis, sehingga akan mengurangi aktivitas manual yang memberi peluang adanya intervensi manusia yang rawan menyebabkan kesalahan. Operasi beban kerja memenuhi tujuan-tujuan ketersediaan, dan mengurangi gangguan layanan.
Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan: Sedang
Panduan implementasi
Untuk mengelola peringatan secara efektif dan mengotomatiskan responsnya, Anda harus mengkategorikan peringatan berdasarkan tingkat kekritisan dan dampaknya, mendokumentasikan prosedur respons, dan merencanakan respons sebelum menentukan peringkat tugas.
Identifikasi tugas yang membutuhkan tindakan-tindakan tertentu (sering kali diperinci dalam runbook), dan periksa semua runbook dan playbook untuk menentukan tugas mana yang dapat diotomatisasi. Jika tindakan dapat ditentukan, tindakan tersebut sering kali dapat diotomatisasi. Jika tindakan tidak dapat diotomatisasi, dokumentasikan langkah-langkah manual di sebuah SOP dan latih operator pada mereka. Terus cari peluang otomatisasi pada proses-proses yang masih dilakukan secara manual agar Anda dapat membuat dan menerapkan rencana untuk mengotomatiskan respons peringatan.
Langkah-langkah implementasi
-
Buat inventaris alarm: Untuk mendapatkan daftar semua alarm, Anda dapat menggunakan perintah AWS CLI
menggunakan Amazon CloudWatch. describe-alarms
Bergantung pada berapa banyak alarm yang telah Anda atur, Anda mungkin harus menggunakan pagination untuk mengambil subset alarm untuk setiap panggilan, atau sebagai alternatif Anda dapat menggunakan alarm AWS SDK untuk mendapatkan alarm menggunakan panggilan. API -
Dokumentasikan semua tindakan alarm: Perbarui runbook dengan semua alarm dan tindakannya, terlepas dari apakah runbook itu manual atau otomatis. AWS Systems Manager menyediakan runbook yang telah ditentukan sebelumnya. Untuk informasi lebih lanjut tentang runbook, lihat Bekerja dengan runbook. Untuk detail tentang cara melihat konten runbook, silakan lihat Menampilkan konten runbook.
-
Siapkan dan kelola tindakan alarm: Untuk alarm apa pun yang memerlukan tindakan, tentukan tindakan otomatis menggunakan. CloudWatch SDK Misalnya, Anda dapat mengubah status EC2 instans Amazon secara otomatis berdasarkan CloudWatch alarm dengan membuat dan mengaktifkan tindakan pada alarm atau menonaktifkan tindakan pada alarm.
Anda juga dapat menggunakan Amazon EventBridge
untuk merespons peristiwa sistem secara otomatis, seperti masalah ketersediaan aplikasi atau perubahan sumber daya. Anda dapat membuat aturan untuk menunjukkan peristiwa yang sesuai kepentingan Anda, dan tindakan yang akan diambil ketika peristiwa sesuai dengan aturan. Tindakan yang dapat dimulai secara otomatis termasuk menjalankan AWS Lambda fungsi, menjalankan Amazon, menyampaikan acara ke EC2 Run Command
AmazonKinesis Data Streams, dan melihat Automate Amazon menggunakan. EC2 EventBridge -
Prosedur Operasi Standar (SOPs): Berdasarkan komponen aplikasi Anda, AWS Resilience Hubrekomendasikan beberapa SOPtemplat. Anda dapat menggunakan ini SOPs untuk mendokumentasikan semua proses yang harus diikuti operator jika ada peringatan. Anda juga dapat membuat rekomendasi Resilience Hub SOP berdasarkan, di mana Anda memerlukan aplikasi Resilience Hub dengan kebijakan ketahanan terkait, serta penilaian ketahanan historis terhadap aplikasi tersebut. Rekomendasi untuk SOP Anda dihasilkan oleh penilaian ketahanan.
Resilience Hub bekerja dengan Systems Manager untuk mengotomatiskan langkah-langkah Anda SOPs dengan menyediakan sejumlah SSMdokumen yang dapat Anda gunakan sebagai dasar untuk itu. SOPs Misalnya, Resilience Hub dapat merekomendasikan SOP untuk menambahkan ruang disk berdasarkan dokumen SSM otomatisasi yang ada.
-
Lakukan tindakan otomatis menggunakan Amazon DevOps Guru: Anda dapat menggunakan Amazon DevOps Guru
untuk secara otomatis memantau sumber daya aplikasi untuk perilaku anomali dan memberikan rekomendasi yang ditargetkan untuk mempercepat identifikasi masalah dan waktu perbaikan. Dengan DevOps Guru, Anda dapat memantau aliran data operasional dalam waktu dekat dari berbagai sumber termasuk CloudWatch metrik Amazon,, AWS ConfigAWS CloudFormation , dan. AWS X-Ray Anda juga dapat menggunakan DevOps Guru untuk secara otomatis membuat OpsItems OpsCenter dan mengirim acara EventBridge untuk otomatisasi tambahan.
Sumber daya
Praktik-praktik terbaik terkait:
Dokumen terkait:
Video terkait:
Contoh terkait: