最佳化處理 Iceberg 資料表 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

最佳化處理 Iceberg 資料表

AWS Glue 支援多個資料表最佳化選項,以增強 AWS 分析引擎和ETL任務所使用的 Apache Iceberg 資料表管理和效能。這些最佳化工具提供高效率的儲存利用率、改善的查詢效能,以及有效的資料管理。有三種類型的資料表最佳化工具可供 使用 AWS Glue:

  • 壓縮 – 資料壓縮壓縮小型資料檔案,以減少儲存用量並改善讀取效能。資料檔案會合併和重寫,以移除過時的資料,並將分段的資料合併為更大、更有效率的檔案。壓縮可設定為自動執行,或視需要手動觸發。

  • 快照保留 – 快照是 Iceberg 資料表的時間戳記版本。快照保留組態可讓客戶強制執行保留快照的時間長度,以及要保留的快照數量。設定快照保留最佳化工具可以移除舊的、不必要的快照及其相關聯的基礎檔案,以協助管理儲存開銷。

  • 孤立檔案刪除 – 孤立檔案是 Iceberg 資料表中繼資料不再參考的檔案。這些檔案會隨著時間累積,特別是在資料表刪除或ETL任務失敗等操作之後。啟用孤立檔案刪除 AWS Glue 允許定期識別和移除這些不必要的檔案,釋放儲存體。

您可以使用 AWS Glue 主控台或 AWS Glue API操作,啟用或停用 Data Catalog 中個別 Iceberg 資料表的壓縮 AWS CLI、快照保留和孤立檔案刪除最佳化工具。

下列影片示範如何在 中設定 Iceberg 資料表的最佳化工具 AWS Glue 編目程式。