SUS04-BP05 Menyingkirkan data yang tidak diperlukan atau redundan
Hapus data yang tidak diperlukan atau redundan untuk meminimalkan sumber daya penyimpanan yang diperlukan untuk menyimpan set data Anda.
Antipola umum:
-
Anda menduplikasi data yang dapat diperoleh atau dibuat ulang dengan mudah
-
Anda mencadangkan semua data tanpa mempertimbangkan tingkat kekritisannya.
-
Anda menghapus data tidak rutin, hanya pada peristiwa operasional, atau tidak menghapusnya sama sekali.
-
Anda menyimpan data secara redundan dengan mengabaikan durabilitas layanan penyimpanan.
-
Anda mengaktifkan versioning Amazon S3 tanpa alasan bisnis apa pun.
Manfaat menjalankan praktik terbaik ini: Penghapusan data yang tidak diperlukan dapat mengurangi ukuran penyimpanan yang diperlukan untuk beban kerja Anda serta dampak beban kerja terhadap lingkungan.
Tingkat risiko yang terjadi jika praktik terbaik ini tidak dijalankan: Sedang
Panduan implementasi
Jangan menyimpan data yang tidak Anda perlukan. Otomatiskan penghapusan data yang tidak diperlukan. Gunakan teknologi yang menghilangkan data ganda pada tingkat file dan blok. Manfaatkan fitur replikasi dan redundansi data native dari layanan.
Langkah implementasi
-
Evaluasi apakah Anda dapat menghindari menyimpan data menggunakan set data yang saat ini tersedia untuk publik di AWS Data Exchange
dan Data Terbuka di AWS . -
Gunakan mekanisme yang dapat membatalkan duplikasi data pada tingkat blok dan objek. Berikut ini adalah beberapa contoh cara membatalkan duplikasi data di AWS:
Storage service Deduplication mechanism Gunakan AWS Lake Formation FindMatches
untuk menemukan catatan pencocokan di sebuah set data (termasuk tanpa pengidentifikasi) menggunakan FindMatches ML Transform baru. Aktifkan pembatalan duplikasi data di Amazon FSx untuk Windows.
Snapshot adalah cadangan bertahap, yang berarti penyimpanan hanya dilakukan untuk blok di perangkat yang telah berubah setelah snapshot terbaru Anda.
-
Analisis akses data untuk mengidentifikasi data yang tidak diperlukan. Otomatiskan kebijakan siklus hidup. Manfaatkan fitur layanan native seperti Amazon DynamoDB Time To Live, Siklus Hidup Amazon S3, atau retensi log Amazon CloudWatch untuk penghapusan.
-
Gunakan kemampuan virtualisasi data di AWS untuk mempertahankan data di sumbernya dan menghindari duplikasi data.
-
Gunakan teknologi pencadangan yang dapat membuat cadangan bertahap.
-
Manfaatkan durabilitas Amazon S3 dan replikasi Amazon EBS untuk memenuhi tujuan durabilitas Anda, bukan teknologi yang dikelola mandiri (seperti rangkaian disk independen yang redundan (RAID)).
-
Pusatkan log dan lacak data, batalkan duplikasi entri log yang identik, dan buat mekanisme untuk menyesuaikan verbositas saat diperlukan.
-
Pra-isi cache hanya saat ada alasan yang dibenarkan.
-
Lakukan pemantauan dan otomatisasi cache untuk menyesuaikan ukuran cache dengan tepat.
-
Singkirkan deployment dan aset usang dari penyimpanan objek dan cache edge saat mendorong versi baru untuk beban kerja Anda.
Sumber daya
Dokumen terkait:
Video terkait:
Contoh terkait: