啟用孤立檔案刪除 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

啟用孤立檔案刪除

您可以使用... AWS Glue 控制台, AWS CLI,或 AWS API,以便在資料目錄中為 Apache 冰山表格啟用孤立檔案刪除功能。對於新表格,您可以選擇 Apache Iceberg 作為表格格式,並在創建表格時啟用孤立文件刪除最佳化工具。新資料表預設會停用快照保留。

Console
啟用孤立檔案刪除
  1. 打開 AWS Glue 主控台,https://console.aws.amazon.com/glue/並以資料湖管理員、表格建立者或已獲得資料表glue:UpdateTablelakeformation:GetDataAccess權限的使用者身分登入。

  2. 在導覽面板的 Data Catalog 下方,選擇資料表

  3. 在 [格] 頁面上,選擇您要在其中啟用孤立檔案刪除的 Iceberg 表格。

    選擇頁面下方區段的 [表格最佳化] 索引標籤,然後從 [動作] 中選擇 [啟用]、[孤立檔案刪除]。

    您也可以從頁面右上角的「動作」功能表中選擇「最佳化」下的「用」。

  4. 在 [啟用最佳化] 頁面上,選擇 [最佳化選項] 下的 [孤立檔案刪除]

  5. 如果您選擇使用預設設定,所有孤立檔案將在 3 天後刪除。如果您要將孤立檔案保留特定天數,請選擇 [自訂設定]。

  6. 接下來,選擇具有刪除孤立文件所需權限的IAM角色。

  7. 如果您選擇 [自訂設定],請在 [孤立檔案刪除組態] 下輸入刪除前要保留檔案的天數。

  8. 選擇啟用最佳化

AWS CLI

若要為冰山表啟用孤立檔案刪除 AWS Glue,您需要創建一個類型的表優化器orphan_file_deletion並將該enabled字段設置為 true。若要使用 AWS CLI,您可以使用以下命令:

aws glue create-table-optimizer \ --catalog-id 123456789012 \ --database-name iceberg_db \ --table-name iceberg_table \ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role","enabled":true,"orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3, "location":'S3 location'}}}'\ --type orphan_file_deletion

此命令為指定的 Iceberg 表創建一個孤立文件刪除優化器。關鍵參數如下:

  • roleArn — 具有存取 S3 儲存貯體和 Glue 資源ARN之權限的IAM角色。

  • 啟用 — 設定為 true 以啟用最佳化程式。

  • orphanFileRetentionPeriodInDays — 刪除孤立檔案之前保留的天數 (至少 1 天)。

  • 類型 — 設定為孤立檔案刪除,以建立孤立檔案刪除最佳化工具。

創建表優化器後,它將定期運行孤立文件刪除(如果啟用,每天一次)。您可以使用檢查管路list-table-optimizer-runsAPI。孤立檔案刪除工作將識別並刪除表格 Iceberg 中繼資料中未追蹤的檔案。

API

呼叫CreateTableOptimizer作業,為特定資料表建立孤立檔案刪除最佳化工具。