本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
您可以使用 AWS Glue 主控台或 AWS API AWS CLI,為 Data Catalog 中的 Apache Iceberg 資料表啟用快照保留最佳化工具。對於新資料表,您可以選擇 Apache Iceberg 做為資料表格式,並在建立資料表時啟用快照保留最佳化工具。新資料表的快照保留預設為停用。
啟用快照保留最佳化工具
-
在 https://https://console.aws.amazon.com/glue/
開啟 AWS Glue 主控台,並以資料湖管理員、資料表建立者或已在資料表上授予 glue:UpdateTable
和lakeformation:GetDataAccess
許可的使用者身分登入。 -
在導覽面板的 Data Catalog 下方,選擇資料表。
在資料表頁面上,選擇您要啟用快照保留最佳化工具的 Iceberg 資料表,然後在動作功能表下,選擇最佳化下的啟用。
您也可以選取資料表並開啟資料表詳細資訊頁面,以啟用最佳化。選擇頁面下一節的資料表最佳化索引標籤,然後選擇啟用快照保留。
-
在啟用最佳化頁面的最佳化組態下,您有兩個選項:使用預設設定或自訂設定。如果您選擇使用預設設定, AWS Glue 會利用 Iceberg 資料表組態中定義的屬性來決定快照保留期間和要保留的快照數量。如果沒有此組態, AWS Glue 會保留一個快照五天,並刪除與過期快照相關聯的檔案。
-
接下來,選擇 AWS Glue 可代表您擔任的 IAM 角色來執行最佳化工具。如需 IAM 角色所需許可的詳細資訊,請參閱 資料表最佳化先決條件 一節。
請依照以下步驟更新現有 IAM 角色:
-
若要更新 IAM 角色的權限政策,請在 IAM 主控台中,前往用於執行壓縮程序的 IAM 角色。
-
在新增權限區段中,選擇建立政策。在新開啟的瀏覽器視窗中,建立要搭配您角色使用的新政策。
在建立政策頁面上,選擇 JSON 標籤。將先決條件中顯示的 JSON 程式碼複製到政策編輯器欄位。
-
-
如果您想要手動設定快照保留組態的值,請選擇自訂設定。
-
選擇方塊 將選取的 IAM 角色套用至選取的最佳化工具選項,以對所有啟用所有最佳化工具的 使用單一 IAM 角色。
-
如果您有安全政策組態,其中 Iceberg 資料表最佳化工具需要從特定虛擬私有雲端 (VPC) 存取 Amazon S3 儲存貯體,請建立 AWS Glue 網路連線或使用現有的網路連線。
如果您尚未設定 AWS Glue VPC 連線,請依照使用 AWS Glue 主控台或 AWS CLI/SDK 建立連接器連線區段中的步驟建立新的連線。
接下來,在快照保留組態下,選擇使用 Iceberg 資料表組態
中指定的值,或指定快照保留期間 (history.expire.max-snapshot-age-ms) 和快照數目下限 (history.expire.min-snapshots-to-keep) 的自訂值來保留。 -
當資料表最佳化工具從資料表中繼資料中刪除舊快照時,選擇刪除相關聯的檔案以刪除基礎檔案。
如果您不選擇此選項,從資料表中繼資料中移除較舊的快照時,其相關聯的檔案會保留在儲存體中做為孤立檔案。
-
接下來,請閱讀注意事項陳述式,然後選擇我確認以繼續。
注意
在 Data Catalog 中,快照保留最佳化工具會遵守由分支和標籤層級保留政策控制的生命週期。如需詳細資訊,請參閱 Iceberg 文件中的分支和標記
一節。 -
檢閱組態,然後選擇啟用最佳化。
等待幾分鐘,讓保留最佳化工具根據組態執行和過期舊快照。
啟用壓縮功能後,資料表最佳化索引標籤會顯示下列壓縮詳細資料 (大約 15-20 分鐘後):
- 開始時間
-
快照保留最佳化工具啟動的時間。該值為以 UTC 時間為單位的時間戳記。
- 執行時間
-
時間顯示最佳化工具完成任務所需的時間。該值為以 UTC 時間為單位的時間戳記。
- Status
-
最佳化工具執行的狀態。值會是 success 或 fail。
- 已刪除資料檔案
已刪除的檔案總數。
- 資訊清單檔案已刪除
-
已刪除的資訊清單檔案總數。
- 資訊清單清單已刪除
-
已刪除的資訊清單總數。