SUS04-BP04 不要なデータや重複するデータを削除する
不要なデータや重複するデータを削除し、データセットの保存に必要なストレージリソースを最小限に抑えます。
一般的なアンチパターン:
-
簡単に取得または再作成できるデータを複製している。
-
データの重要性を考慮せず、すべてのデータをバックアップしている。
-
データの削除は、不定期、運用イベント時のみ、または全く行わない。
-
ストレージサービスの耐久性に関係なく、データを冗長に保存している。
-
ビジネス上の正当な理由なく Amazon S3 バージョニングを実行している。
このベストプラクティスを確立するメリット: 不要なデータを削除することで、ワークロードに必要なストレージサイズを縮小し、ワークロードの環境に対する影響も軽減します。
このベストプラクティスが確立されていない場合のリスクレベル: ミディアム
実装のガイダンス
不要なデータを保存しない。不要なデータの削除を自動化する。ファイルおよびブロックレベルでデータの重複を排除するテクノロジーを使用する。サービスのネイティブデータレプリケーションと冗長性機能を活用する。
実装手順
-
AWS Data Exchange
およびOpen Data on AWS で公開されている既存のデータセットを利用することで、データの保存を回避できないかを評価します。 -
ブロックレベルとオブジェクトレベルでデータを重複排除できる仕組みを使用します。AWS でデータの重複をなくす方法の例を次に示します。
Storage service Deduplication mechanism 新しい FindMatches ML Transform を使用して、データセット全体 (識別子のないレコードを含む) で一致するレコードを検索するには、AWS Lake Formation FindMatches
を使用します。 Windows 向けの Amazon FSx でデータ重複排除を有効にします。
スナップショットは増分バックアップです。つまり、直近のスナップショットの後に変更されたデバイス上のブロックのみが保存されます。
-
データアクセスを分析し、不要なデータを特定します。ライフサイクルポリシーを自動化します。削除のための Amazon DynamoDB 有効期限、Amazon S3 ライフサイクル、Amazon CloudWatch ログ保持などのネイティブサービス機能を活用します。
-
AWS のデータ仮想化機能を使用してデータをソースに保持し、データの重複を回避します。
-
増分バックアップが可能なバックアップテクノロジーを使用します。
-
セルフマネージドテクノロジー (RAID (Redundant Array of Independent Disks) など) の代わりに、Amazon S3 の耐久性と Amazon EBS のレプリケーションを活用して、耐久性の目標を達成します。
-
ログおよび追跡データを一元化し、同一のログエントリの重複を排除して、必要に応じて冗長性を調整するメカニズムを確立します。
-
キャッシュの事前入力は、正当な場合にのみ行います。
-
キャッシュのモニタリングとオートメーションを確立し、それに従ってキャッシュをサイズ変更します。
-
ワークロードの新しいバージョンをプッシュする際に、オブジェクトストアとエッジキャッシュから古いデプロイとアセットを削除します。
リソース
関連するドキュメント:
関連動画:
-
Fuzzy Matching and Deduplicating Data with ML Transforms for AWS Lake Formation
(AWS Lake Formation の機械学習トランスフォームによるファジーマッチングとデータの重複排除)
関連する例: