Mengurangi MTTD - Ketersediaan dan Selanjutnya: Memahami dan Meningkatkan Ketahanan Sistem Terdistribusi AWS

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengurangi MTTD

MTTDMengurangi kegagalan berarti menemukan kegagalan secepat mungkin. Memperpendek MTTD didasarkan pada observabilitas, atau bagaimana Anda telah menginstrumentasi beban kerja Anda untuk memahami statusnya. Pelanggan harus memantau metrik Pengalaman Pelanggan mereka di subsistem kritis beban kerja mereka sebagai cara untuk secara proaktif mengidentifikasi kapan masalah terjadi (lihat Lampiran 1 — MTTD dan metrik MTTR penting untuk informasi lebih lanjut tentang metrik ini. ). Pelanggan dapat menggunakan Amazon CloudWatch Synthetics untuk membuat kenari yang memantau Anda APIs dan konsol untuk mengukur pengalaman pengguna secara proaktif. Ada sejumlah mekanisme pemeriksaan kesehatan lain yang dapat digunakan untuk meminimalkanMTTD, seperti pemeriksaan kesehatan Elastic Load Balancing (ELB), pemeriksaan kesehatan Amazon Route 53, dan banyak lagi. (Lihat Amazon Builders' Library — Menerapkan pemeriksaan kesehatan.)

Pemantauan Anda juga harus dapat mendeteksi kegagalan sebagian dari sistem secara keseluruhan dan dalam subsistem individu Anda. Metrik ketersediaan, kegagalan, dan latensi Anda harus menggunakan dimensi batas isolasi kesalahan Anda sebagai dimensi metrik. CloudWatch Misalnya, pertimbangkan satu EC2 instance yang merupakan bagian dari arsitektur berbasis sel, di use1-az1 AZ, di Wilayah us-east-1, yang merupakan bagian dari pembaruan beban kerja yang merupakan bagian dari subsistem bidang kontrolnya. API Ketika server mendorong metriknya, ia dapat menggunakan id instans, AZ, Wilayah, API nama, dan nama subsistem sebagai dimensi. Ini memungkinkan Anda untuk memiliki observabilitas dan mengatur alarm di masing-masing dimensi ini untuk mendeteksi kegagalan.