SUS04-BP05 移除不需要或多餘的資料
移除不需要或多餘的資料,以盡量降低儲存資料集時所需的儲存資源。
常見的反模式:
-
您複製可以輕鬆取得或建立的資料。
-
您備份所有資料,而不考慮該資料是否重要。
-
您只會不定期地刪除資料、在發生營運事件時刪除資料,或完全不刪除資料。
-
您重複儲存資料,而不理會儲存服務的耐用性。
-
您在沒有任何商務理由的情況下啟用 Amazon S3 版本控制。
建立此最佳實務的優勢:移除不需要的資料會降低工作負載所需的儲存大小,以及工作負載環境所受到的影響。
未建立此最佳實務時的風險暴露等級:中
實作指引
請勿儲存您不需要的資料。請自動刪除不需要的資料。使用會在檔案層級和區塊層級刪除重複資料的技術。利用服務原生的資料複寫和備援功能。
實作步驟
-
評估您是否可以藉由使用 AWS Data Exchange
和 AWS 上的開放資料登錄檔 中現有的公開提供的資料集,以避免儲存資料。 -
使用可在區塊和物件層級刪除重複資料的機制。下面幾個範例會說明如何在 AWS 上刪除重複資料:
Storage service Deduplication mechanism 使用 AWS Lake Formation FindMatches
,透過新的 FindMatches ML Transform 來尋找整個資料集內的相符記錄。 在適用於 Windows 的 Amazon FSx 上啟用重複資料刪除。
快照是增量備份,這表示只會儲存最近一次快照後裝置上發生變更的區塊。
-
分析資料存取以識別不需要的資料。將生命週期政策自動化。利用原生服務功能 (例如 Amazon DynamoDB Time To Live、Amazon S3 Lifecycle 或 Amazon CloudWatch 日誌保留) 來執行刪除作業。
-
使用 AWS 上的資料虛擬化功能將資料留在其來源上,並避免資料重複。
-
使用可以進行增量備份的備份計數。
-
利用 Amazon S3 的耐久性和 Amazon EBS 的複寫功能來滿足耐久性目標,而非利用自我管理的技術 (例如獨立硬碟冗餘陣列 (RAID))。
-
集中日誌和追蹤資料、刪除重複的日誌項目,並建立根據需要微調詳細程度的機制。
-
僅在合理的情況下才預先填入快取。
-
建立快取監控和自動化,據以調整快取大小。
-
推送工作負載新版本時,從物件存放區和邊緣快取移除過時的部署和資產。
資源
相關文件:
相關影片:
相關範例: