本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SUS04-BP05 移除不需要或多餘的資料
移除不需要或多餘的資料,以盡量降低儲存資料集時所需的儲存資源。
常見的反模式:
-
您複製可以輕鬆取得或重新建立的資料。
-
您備份所有資料,而不考慮該資料是否重要。
-
您只會不定期地刪除資料、在發生營運事件時刪除資料,或完全不刪除資料。
-
您重複儲存資料,而不理會儲存服務的耐用性。
-
您在沒有任何商務理由的情況下開啟 Amazon S3 版本控制。
建立此最佳實務的優勢:移除不需要的資料會降低工作負載所需的儲存大小,以及工作負載環境所受到的影響。
未建立此最佳實務時的曝險等級:中
實作指引
當移除不需要的備援資料集時,即可縮減儲存成本和環境耗用面積。這種做法也可讓運算更有效率,因為運算資源只會處理重要資料,而不是不需要的資料。請自動刪除不需要的資料。使用會在檔案層級和區塊層級刪除重複資料的技術。使用服務原生資料複寫和備援功能。
實作步驟
-
評估公有資料集:評估您是否可以藉由使用 AWS Data Exchange
和 AWS 上的開放資料 中現有公開提供的資料集,以避免儲存資料。 -
刪除重複資料:使用可在區塊和物件層級刪除重複資料的機制。下面幾個範例會說明如何在 AWS 上刪除重複資料:
儲存服務 重複資料刪除機制 使用 AWS Lake Formation FindMatches
,透過新的 FindMatches ML Transform 來尋找整個資料集內的相符記錄 (包括沒有識別碼的記錄)。 在適用於 Windows 的 Amazon FSx 上使用重複資料刪除。
快照為遞增備份,這表示只會儲存您上次執行裝置快照後發生變更的區塊。
-
使用生命週期政策:使用生命週期政策來自動刪除不需要的資料。使用原生服務功能 (例如 Amazon DynamoDB Time To Live、Amazon S3 Lifecycle 或 Amazon CloudWatch 日誌保留) 執行刪除作業。
-
使用資料虛擬化:使用 AWS 上的資料虛擬化功能以保有其來源處的資料,並避免資料重複。
-
使用增量備份:使用可以進行增量備份的備份技術。
-
使用原生耐久性:利用 Amazon S3 的耐久性和 Amazon EBS 的複寫功能來滿足耐久性目標,而非利用自我管理的技術 (例如獨立硬碟冗餘陣列 (RAID))。
-
使用有效率的記錄:集中日誌和追蹤資料、刪除重複的日誌項目,並建立根據需要微調詳細程度的機制。
-
使用有效率的快取:僅在合理的情況下預先填入快取。
-
建立快取監控和自動化,據以調整快取大小。
-
移除舊版資產:推送工作負載新版本時,從物件存放區和邊緣快取移除過時的部署和資產。
資源
相關文件:
相關影片:
相關範例: