本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
啟用孤立檔案刪除
您可以使用... AWS Glue 控制台, AWS CLI,或 AWS API,以便在資料目錄中為 Apache 冰山表格啟用孤立檔案刪除功能。對於新表格,您可以選擇 Apache Iceberg 作為表格格式,並在創建表格時啟用孤立文件刪除最佳化工具。新資料表預設會停用快照保留。
- Console
-
啟用孤立檔案刪除
-
打開 AWS Glue 主控台,https://console.aws.amazon.com/glue/
並以資料湖管理員、表格建立者或已獲得資料表 glue:UpdateTable
和lakeformation:GetDataAccess
權限的使用者身分登入。 -
在導覽面板的 Data Catalog 下方,選擇資料表。
在 [表格] 頁面上,選擇您要在其中啟用孤立檔案刪除的 Iceberg 表格。
選擇頁面下方區段的 [表格最佳化] 索引標籤,然後從 [動作] 中選擇 [啟用]、[孤立檔案刪除]。
您也可以從頁面右上角的「動作」功能表中選擇「最佳化」下的「啟用」。
-
在 [啟用最佳化] 頁面上,選擇 [最佳化選項] 下的 [孤立檔案刪除]
-
如果您選擇使用預設設定,所有孤立檔案將在 3 天後刪除。如果您要將孤立檔案保留特定天數,請選擇 [自訂設定]。
-
接下來,選擇具有刪除孤立文件所需權限的IAM角色。
-
如果您選擇 [自訂設定],請在 [孤立檔案刪除組態] 下輸入刪除前要保留檔案的天數。
-
選擇啟用最佳化。
-
- AWS CLI
-
若要為冰山表啟用孤立檔案刪除 AWS Glue,您需要創建一個類型的表優化器
orphan_file_deletion
並將該enabled
字段設置為 true。若要使用 AWS CLI,您可以使用以下命令:aws glue create-table-optimizer \ --catalog-id
123456789012
\ --database-nameiceberg_db
\ --table-nameiceberg_table
\ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012
:role/optimizer_role
","enabled":true,"orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3
, "location":'S3 location
'}}}'\ --type orphan_file_deletion此命令為指定的 Iceberg 表創建一個孤立文件刪除優化器。關鍵參數如下:
-
roleArn — 具有存取 S3 儲存貯體和 Glue 資源ARN之權限的IAM角色。
-
啟用 — 設定為 true 以啟用最佳化程式。
-
orphanFileRetentionPeriodInDays — 刪除孤立檔案之前保留的天數 (至少 1 天)。
-
類型 — 設定為孤立檔案刪除,以建立孤立檔案刪除最佳化工具。
創建表優化器後,它將定期運行孤立文件刪除(如果啟用,每天一次)。您可以使用檢查管路
list-table-optimizer-runs
API。孤立檔案刪除工作將識別並刪除表格 Iceberg 中繼資料中未追蹤的檔案。 -
- API
-
呼叫
CreateTableOptimizer
作業,為特定資料表建立孤立檔案刪除最佳化工具。