Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
SUS04-BP05 Menyingkirkan data yang tidak diperlukan atau redundan
Hapus data yang tidak diperlukan atau redundan untuk meminimalkan sumber daya penyimpanan yang diperlukan untuk menyimpan set data Anda.
Anti-pola umum:
-
Anda menduplikasi data yang dapat diperoleh atau dibuat ulang dengan mudah.
-
Anda mencadangkan semua data tanpa mempertimbangkan tingkat kekritisannya.
-
Anda menghapus data tidak rutin, hanya pada peristiwa operasional, atau tidak menghapusnya sama sekali.
-
Anda menyimpan data secara redundan dengan mengabaikan daya tahan layanan penyimpanan.
-
Anda mengaktifkan penentuan versi Amazon S3 tanpa alasan bisnis apa pun.
Manfaat menjalankan praktik terbaik ini: Menghapus data yang tidak dibutuhkan akan mengurangi ukuran penyimpanan yang diperlukan untuk beban kerja Anda dan dampak lingkungan yang ditimbulkan beban kerja Anda.
Tingkat risiko yang terjadi jika praktik terbaik ini tidak diterapkan: Sedang
Panduan implementasi
Saat Anda menghapus set data yang tidak dibutuhkan dan redundan, Anda dapat mengurangi biaya penyimpanan dan jejak lingkungan. Praktik ini juga dapat membuat komputasi lebih efisien karena sumber daya komputasi hanya memproses data penting, bukan data yang tidak dibutuhkan. Otomatiskan penghapusan data yang tidak diperlukan. Gunakan teknologi yang melakukan deduplikasi data pada tingkat file dan blok. Gunakan fitur layanan untuk replikasi dan redundansi data native.
Langkah-langkah implementasi
-
Evaluasi set data publik: Evaluasi apakah Anda dapat menghindari penyimpanan data dengan menggunakan set data yang tersedia untuk umum di AWS Data Exchange
dan Data Terbuka di AWS . -
Lakukan deduplikasi data: Gunakan mekanisme yang dapat melakukan deduplikasi data pada tingkat blok dan objek. Berikut ini adalah beberapa contoh cara melakukan deduplikasi data di AWS:
Layanan penyimpanan Mekanisme deduplikasi Gunakan AWS Lake Formation FindMatches
untuk menemukan rekaman yang cocok di seluruh set data (termasuk yang tanpa pengenal) dengan menggunakan FindMatches MLTransform yang baru. Gunakan deduplikasi data di Amazon FSx untuk Windows.
Snapshot adalah pencadangan bertahap, yang berarti bahwa hanya blok di perangkat yang diubah setelah snapshot terbaru Anda yang akan disimpan.
-
Gunakan kebijakan siklus hidup: Gunakan kebijakan siklus hidup untuk mengotomatiskan penghapusan data yang tidak digunakan. Gunakan fitur-fitur layanan bawaan native seperti Amazon DynamoDB Time To Live, Siklus Hidup Amazon S3, atau retensi log Amazon CloudWatch untuk penghapusan.
-
Gunakan virtualisasi data: Gunakan kemampuan virtualisasi data di AWS untuk mempertahankan data di sumbernya dan menghindari duplikasi data.
-
Gunakan cadangan bertahap: Gunakan teknologi pencadangan yang dapat membuat cadangan bertahap.
-
Gunakan daya tahan native: Manfaatkan daya tahan Amazon S3 dan replikasi Amazon EBS untuk memenuhi tujuan daya tahan Anda, alih-alih teknologi yang dikelola sendiri (seperti susunan disk independen (RAID) yang redundan).
-
Gunakan pencatatan log yang efisien: Pusatkan log dan lacak data, lakukan deduplikasi entri log yang identik, dan buat mekanisme untuk menyesuaikan verbositas saat diperlukan.
-
Gunakan caching yang efisien: Lakukan pra-pengisian cache hanya jika diperlukan.
-
Lakukan pemantauan dan otomatisasi cache untuk menyesuaikan ukuran cache dengan tepat.
-
Hapus aset versi lama: Hapus deployment dan aset usang dari penyimpanan objek dan cache edge saat mendorong versi baru beban kerja Anda.
Sumber daya
Dokumen terkait:
Video terkait:
Contoh terkait: