Pola Ketahanan Multi-AZ Tingkat Lanjut

Tanggal publikasi:11 Juli 2023(Revisi dokumen)

Banyak pelanggan menjalankan beban kerja mereka dalam konfigurasi Multi-Availability Zone (AZ) yang sangat tersedia. Arsitektur ini bekerja dengan baik selama kejadian kegagalan biner, tetapi sering mengalami masalah denganabu-abukegagalan. Manifestasi dari jenis kegagalan ini bisa halus, dan menentang deteksi cepat dan definitif. Tulisan ini memberikan panduan tentang cara instrumen beban kerja untuk mendeteksi dampak dari kegagalan abu-abu yang terisolasi ke Availability Zone tunggal, dan kemudian mengambil tindakan untuk mengurangi dampak tersebut di Availability Zone.

Pengantar

Tujuan dari dokumen ini adalah untuk membantu Anda menerapkan arsitektur Multi-AZ yang tangguh secara lebih efektif. Salah satu praktik terbaik untuk membangun sistem tangguh diCloud Pribadi Virtual AmazonJaringan (VPC) adalah untukmenyebarkan setiap beban kerja ke beberapa Availability Zone.

SebuahZona Ketersediaanadalah satu atau lebih pusat data diskrit dengan daya, jaringan, dan konektivitas yang berlebihan. Menggunakan beberapa Availability Zone memungkinkan Anda mengoperasikan beban kerja yang lebih tersedia, toleran terhadap kesalahan, dan dapat diskalakan daripada yang mungkin dilakukan dari satu pusat data.

BanyakAWSlayanan, sepertiPenskalaan Otomatis Amazon Elastic Compute Cloud (EC2)atauLayanan Database Relasional Amazon(Amazon RDS), menyediakan konfigurasi Multi-AZ. Layanan ini tidak mengharuskan Anda untuk membangun observability tambahan atau tooling failover. Mereka membuat beban kerja tangguh untuk mode kegagalan biner yang mudah dideteksi dalamWilayah AWSyang memengaruhi Availability Zone tunggal. Ini bisa berupa kegagalan perangkat keras fisik lengkap, kehilangan daya, atau bug perangkat lunak laten yang memengaruhi sebagian besar sumber daya.

Tapi ada kategori kegagalan lain yang disebutkegagalan abu-abu, yang manifestasinya halus dan menentang deteksi cepat dan definitif. Hal ini pada gilirannya menghasilkan waktu yang lebih lama untuk mengurangi dampak yang disebabkan oleh kegagalan. Makalah ini berfokus pada dampak kegagalan abu-abu pada arsitektur Multi-AZ, cara mendeteksinya, dan, akhirnya, cara menguranginya.

Panduan yang disediakan dalam whitepaper ini sebagian besar berlaku untuk kelas beban kerja tertentu yang:

Terutama menggunakan zonalAWSjasa
Perlu meningkatkan ketahanan Wilayah tunggal
Bersedia melakukan investasi yang signifikan untuk membangun pola observabilitas dan ketahanan yang diperlukan

Dalam beban kerja ini, Anda mungkin tidak mau membuat beberapa, atau semua, dari pengorbanan yang disajikanMenanggapi kegagalan abu-abu, atau tidak memiliki opsi untuk menggunakan beberapa Wilayah. Jenis beban kerja ini cenderung mewakili sebagian kecil dari keseluruhan portofolio Anda dan karenanya panduan ini harus dipertimbangkan pada tingkat beban kerja versus pada tingkat platform.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Kegagalan abu-abu