REL09-BP04 Lakukan pemulihan data secara berkala untuk memverifikasi integritas dan proses cadangan - Pilar Keandalan

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

REL09-BP04 Lakukan pemulihan data secara berkala untuk memverifikasi integritas dan proses cadangan

Validasi bahwa implementasi proses pencadangan Anda memenuhi Tujuan Waktu Pemulihan (RTO) dan Tujuan Titik Pemulihan (RPO) Anda dengan melakukan tes pemulihan.

Hasil yang diinginkan: Data dari cadangan dipulihkan secara berkala menggunakan mekanisme yang terdefinisi dengan baik untuk memverifikasi bahwa pemulihan dimungkinkan dalam tujuan waktu pemulihan yang ditetapkan (RTO) untuk beban kerja. Verifikasi bahwa restorasi dari cadangan menghasilkan sumber daya yang berisi data asli tanpa ada yang rusak atau tidak dapat diakses, dan dengan kehilangan data dalam tujuan titik pemulihan ()RPO.

Anti-pola umum:

  • Memulihkan cadangan, tetapi tidak mengambil data atau membuat kueri data apa pun untuk memastikan bahwa data hasil pemulihan dapat digunakan.

  • Dengan anggapan bahwa cadangan sudah ada.

  • Dengan anggapan bahwa cadangan sistem dapat dioperasikan sepenuhnya dan data dapat dipulihkan dari sistem.

  • Dengan asumsi bahwa waktu untuk memulihkan atau memulihkan data dari cadangan termasuk dalam RTO beban kerja.

  • Dengan asumsi bahwa data yang terkandung pada cadangan termasuk dalam RPO beban kerja

  • Melakukan pemulihan apabila diperlukan, tanpa menggunakan runbook, atau di luar prosedur otomatis yang ditetapkan.

Manfaat membangun praktik terbaik ini: Menguji pemulihan cadangan memverifikasi bahwa data dapat dipulihkan bila diperlukan tanpa khawatir bahwa data mungkin hilang atau rusak, bahwa pemulihan dan pemulihan dimungkinkan dalam RTO untuk beban kerja, dan kehilangan data apa pun termasuk dalam beban kerja. RPO

Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan: Sedang

Panduan implementasi

Pengujian kemampuan pencadangan dan pemulihan akan meningkatkan keyakinan Anda pada kemampuan untuk menjalankan tindakan ini selama terjadi pemadaman (outage). Pulihkan cadangan ke lokasi baru secara berkala dan lakukan pengujian untuk memastikan integritas data. Beberapa tes umum yang harus dilakukan adalah memeriksa apakah semua data tersedia, tidak rusak, dapat diakses, dan bahwa setiap kehilangan data termasuk dalam RPO beban kerja. Tes semacam itu juga dapat membantu memastikan apakah mekanisme pemulihan cukup cepat untuk mengakomodasi beban kerja. RTO

Dengan menggunakan AWS, Anda dapat berdiri di lingkungan pengujian dan memulihkan cadangan Anda untuk menilai RTO dan RPO kemampuan, dan menjalankan pengujian pada konten dan integritas data.

Selain itu, Amazon RDS dan Amazon DynamoDB point-in-time memungkinkan pemulihan (). PITR Dengan menggunakan pencadangan yang berkelanjutan, Anda dapat memulihkan set data ke statusnya sesuai dengan waktu dan tanggal yang ditentukan.

Jika semua data tersedia, tidak rusak, dapat diakses, dan kehilangan data apa pun termasuk dalam RPO beban kerja. Tes semacam itu juga dapat membantu memastikan apakah mekanisme pemulihan cukup cepat untuk mengakomodasi beban kerja. RTO

AWS Elastic Disaster Recovery menawarkan snapshot point-in-time pemulihan berkelanjutan dari volume AmazonEBS. Saat server sumber direplikasi, point-in-time status dicatat dari waktu ke waktu berdasarkan kebijakan yang dikonfigurasi. Pemulihan Bencana Elastis dapat membantu Anda untuk memverifikasi integritas snapshot ini dengan meluncurkan instans untuk tujuan pengujian dan latihan tanpa mengarahkan lalu lintas.

Langkah-langkah implementasi

  1. Identifikasi sumber data yang dicadangkan saat ini dan lokasi penyimpanan cadangan tersebut. Untuk panduan implementasi, lihat REL09-BP01 Mengidentifikasi dan mencadangkan semua data yang perlu dicadangkan, atau mereproduksi data dari sumber.

  2. Menetapkan kriteria untuk validasi data untuk masing-masing sumber data. Jenis data yang berbeda akan memiliki properti data yang berbeda, yang dapat memerlukan mekanisme validasi yang berbeda. Pertimbangkan bagaimana data ini dapat divalidasi sebelum Anda yakin untuk menggunakannya dalam produksi. Beberapa cara umum untuk memvalidasi data adalah dengan menggunakan data dan properti pencadangan seperti jenis data, format, checksum, ukuran, atau gabungan darinya dengan logika validasi kustom. Misalnya, hal ini dapat dilakukan dengan perbandingan nilai checksum antara sumber daya yang dipulihkan dan sumber data pada waktu cadangan dibuat.

  3. Menetapkan RTO dan RPO memulihkan data berdasarkan kekritisan data. Untuk panduan implementasi, lihat REL13-BP01 Menentukan tujuan pemulihan untuk downtime dan kehilangan data.

  4. Menilai kemampuan pemulihan Anda. Tinjau strategi pencadangan dan pemulihan Anda untuk memahami apakah itu dapat memenuhi Anda RTO danRPO, dan sesuaikan strategi yang diperlukan. Dengan menggunakan AWS Resilience Hub, Anda dapat menjalankan penilaian terhadap beban kerja Anda. Penilaian mengevaluasi konfigurasi aplikasi Anda terhadap kebijakan ketahanan dan laporan jika Anda RTO dan RPO target dapat dipenuhi.

  5. Lakukan penyimpanan kembali pengujian dengan menggunakan proses yang ditetapkan saat ini yang digunakan dalam produksi untuk pemulihan data. Proses ini bergantung pada cara sumber data asli dicadangkan, format dan lokasi penyimpanan cadangan tersebut, atau apakah data diproduksi ulang dari sumber-sumber lainnya. Misalnya, jika Anda menggunakan sebuah layanan terkelola seperti AWS Backup, hal ini mungkin sesederhana memulihkan cadangan ke sumber daya baru. Jika Anda menggunakan AWS Elastic Disaster Recovery , maka Anda dapat meluncurkan latihan pemulihan.

  6. Validasi pemulihan data dari sumber daya yang dipulihkan berdasarkan kriteria validasi data yang sebelumnya Anda buat. Apakah data yang direstorasi dan dipulihkan memiliki sebagian besar catatan atau item terbaru pada waktu pencadangan? Apakah data ini termasuk dalam RPO beban kerja?

  7. Ukur waktu yang diperlukan untuk pemulihan dan pemulihan dan bandingkan dengan yang Anda mapanRTO. Apakah proses ini termasuk dalam RTO beban kerja? Misalnya, bandingkan stempel waktu dari kapan proses restorasi dimulai dan kapan validasi pemulihan selesai untuk menghitung waktu yang diperlukan proses ini. Semua AWS API panggilan diberi stempel waktu dan informasi ini tersedia di. AWS CloudTrail Meskipun informasi ini dapat menyediakan detail waktu kapan proses pemulihan dimulai, namun stempel waktu akhir yang menunjukkan kapan validasi diselesaikan harus dicatat berdasarkan logika validasi Anda. Jika Anda menggunakan proses otomatis, maka layanan-layanan seperti Amazon DynamoDB dapat digunakan untuk menyimpan informasi ini. Selain itu, banyak AWS layanan menyediakan riwayat peristiwa yang memberikan informasi stempel waktu ketika tindakan tertentu terjadi. Di dalam AWS Backup, tindakan pencadangan dan pemulihan disebut sebagai pekerjaan, dan pekerjaan ini berisi informasi stempel waktu sebagai bagian dari metadatanya yang dapat digunakan untuk mengukur waktu yang diperlukan untuk pemulihan dan pemulihan.

  8. Beri tahu pemangku kepentingan jika validasi data gagal, atau jika waktu yang diperlukan untuk pemulihan dan pemulihan melebihi yang ditetapkan RTO untuk beban kerja. Saat menerapkan otomatisasi untuk melakukan ini, seperti di lab ini, layanan seperti Amazon Simple Notification Service (AmazonSNS) dapat digunakan untuk mengirim pemberitahuan push seperti email atau SMS kepada pemangku kepentingan. Pesan-pesan ini juga dapat dipublikasikan ke aplikasi perpesanan seperti Amazon Chime, Slack, atau Microsoft Teams atau digunakan untuk membuat tugas seperti menggunakan Systems OpsItems Manager AWS. OpsCenter

  9. Otomatiskan proses ini untuk menjalankannya secara berkala. Misalnya, layanan seperti AWS Lambda atau State Machine in AWS Step Functions dapat digunakan untuk mengotomatiskan proses pemulihan dan pemulihan, dan Amazon EventBridge dapat digunakan untuk menjalankan alur kerja otomatisasi ini secara berkala seperti yang ditunjukkan pada diagram arsitektur di bawah ini. Pelajari cara Mengotomatiskan validasi pemulihan data dengan. AWS Backup Selain itu, lab Well-Architected ini memberikan pengalaman langsung tentang satu cara untuk melakukan otomatisasi untuk beberapa langkah yang diuraikan di sini.

Diagram yang menampilkan proses pencadangan dan pemulihan otomatis

Gambar 9. Proses pencadangan dan pemulihan otomatis

Tingkat upaya untuk Rencana Implementasi: Sedang hingga tinggi tergantung pada kompleksitas kriteria validasinya.

Sumber daya

Dokumen terkait:

Contoh terkait: