選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

啟用快照保留最佳化工具

焦點模式
啟用快照保留最佳化工具 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

您可以使用 AWS Glue 主控台或 AWS API AWS CLI,為 Data Catalog 中的 Apache Iceberg 資料表啟用快照保留最佳化工具。對於新資料表,您可以選擇 Apache Iceberg 做為資料表格式,並在建立資料表時啟用快照保留最佳化工具。新資料表的快照保留預設為停用。

Console
啟用快照保留最佳化工具
  1. 在 https://https://console.aws.amazon.com/glue/ 開啟 AWS Glue 主控台,並以資料湖管理員、資料表建立者或已在資料表上授予 glue:UpdateTablelakeformation:GetDataAccess許可的使用者身分登入。

  2. 在導覽面板的 Data Catalog 下方,選擇資料表

  3. 資料表頁面上,選擇您要啟用快照保留最佳化工具的 Iceberg 資料表,然後在動作功能表下,選擇最佳化下的啟用

    您也可以選取資料表並開啟資料表詳細資訊頁面,以啟用最佳化。選擇頁面下一節的資料表最佳化索引標籤,然後選擇啟用快照保留

  4. 啟用最佳化頁面的最佳化組態下,您有兩個選項:使用預設設定自訂設定。如果您選擇使用預設設定, AWS Glue 會利用 Iceberg 資料表組態中定義的屬性來決定快照保留期間和要保留的快照數量。如果沒有此組態, AWS Glue 會保留一個快照五天,並刪除與過期快照相關聯的檔案。

  5. 接下來,選擇 AWS Glue 可代表您擔任的 IAM 角色來執行最佳化工具。如需 IAM 角色所需許可的詳細資訊,請參閱 資料表最佳化先決條件 一節。

    請依照以下步驟更新現有 IAM 角色:

    1. 若要更新 IAM 角色的權限政策,請在 IAM 主控台中,前往用於執行壓縮程序的 IAM 角色。

    2. 在新增權限區段中,選擇建立政策。在新開啟的瀏覽器視窗中,建立要搭配您角色使用的新政策。

    3. 在建立政策頁面上,選擇 JSON 標籤。將先決條件中顯示的 JSON 程式碼複製到政策編輯器欄位。

  6. 如果您想要手動設定快照保留組態的值,請選擇自訂設定

    使用啟用保留 >自訂設定選項的 Apache Iceberg 資料表詳細資訊頁面。
  7. 選擇方塊 將選取的 IAM 角色套用至選取的最佳化工具選項,以對所有啟用所有最佳化工具的 使用單一 IAM 角色。

  8. 如果您有安全政策組態,其中 Iceberg 資料表最佳化工具需要從特定虛擬私有雲端 (VPC) 存取 Amazon S3 儲存貯體,請建立 AWS Glue 網路連線或使用現有的網路連線。

    如果您尚未設定 AWS Glue VPC 連線,請依照使用 AWS Glue 主控台或 AWS CLI/SDK 建立連接器連線區段中的步驟建立新的連線。

  9. 接下來,在快照保留組態下,選擇使用 Iceberg 資料表組態中指定的值,或指定快照保留期間 (history.expire.max-snapshot-age-ms) 和快照數目下限 (history.expire.min-snapshots-to-keep) 的自訂值來保留。

  10. 當資料表最佳化工具從資料表中繼資料中刪除舊快照時,選擇刪除相關聯的檔案以刪除基礎檔案。

    如果您不選擇此選項,從資料表中繼資料中移除較舊的快照時,其相關聯的檔案會保留在儲存體中做為孤立檔案。

  11. 接下來,請閱讀注意事項陳述式,然後選擇我確認以繼續。

    注意

    在 Data Catalog 中,快照保留最佳化工具會遵守由分支和標籤層級保留政策控制的生命週期。如需詳細資訊,請參閱 Iceberg 文件中的分支和標記一節。

  12. 檢閱組態,然後選擇啟用最佳化

    等待幾分鐘,讓保留最佳化工具根據組態執行和過期舊快照。

AWS CLI

若要在 中啟用新 Iceberg 資料表的快照保留 AWS Glue,您需要建立 類型的資料表最佳化工具,retention並將 true中的 enabled 欄位設定為 table-optimizer-configuration。您可以使用 AWS CLI 命令create-table-optimizer或 來執行此操作update-table-optimizer。此外,您需要numberOfSnapshotsToRetain根據您的需求指定 snapshotRetentionPeriodInDays和 等保留組態欄位。

下列範例示範如何啟用快照保留最佳化工具。將帳戶 ID 取代為有效的 AWS 帳戶 ID。將資料庫名稱和資料表名稱取代為實際的 Iceberg 資料表名稱和資料庫名稱。將 取代roleArn為 IAM 角色 AWS 的資源名稱 (ARN),以及具有執行快照保留最佳化工具所需許可的 IAM 角色名稱。

aws glue create-table-optimizer \ --catalog-id 123456789012 \ --database-name iceberg_db \ --table-name iceberg_table \ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role","enabled":'true', "vpcConfiguration":{ "glueConnectionName":"glue_connection_name"}, "retentionConfiguration":{"icebergConfiguration":{"snapshotRetentionPeriodInDays":7,"numberOfSnapshotsToRetain":3,"cleanExpiredFiles":'true'}}}'\ --type retention

此命令會為指定目錄、資料庫和區域中指定的 Iceberg 資料表建立保留最佳化工具。table-optimizer-configuration 指定要使用的 IAM 角色 ARN、啟用最佳化工具,並設定保留組態。在此範例中,它會保留快照 7 天,至少保留 3 個快照,並清除過期的檔案。

  • snapshotRetentionPeriodInDays – 在快照過期之前保留快照的天數。預設值為 5

  • numberOfSnapshotsToRetain – 要保留的快照數量下限,即使它們比保留期間更舊。預設值為 1

  • cleanExpiredFiles – 布林值,指示是否在快照過期後刪除過期的資料檔案。預設值為 true

    設為 true 時,較舊的快照會從資料表中繼資料中移除,而其基礎檔案也會遭到刪除。如果此參數設為 false,較舊的快照會從資料表中繼資料中移除,但其基礎檔案會保留在儲存體中做為孤立檔案。

AWS API

呼叫 CreateTableOptimizer 操作以啟用資料表的快照保留最佳化工具。

啟用快照保留最佳化工具
  1. 在 https://https://console.aws.amazon.com/glue/ 開啟 AWS Glue 主控台,並以資料湖管理員、資料表建立者或已在資料表上授予 glue:UpdateTablelakeformation:GetDataAccess許可的使用者身分登入。

  2. 在導覽面板的 Data Catalog 下方,選擇資料表

  3. 資料表頁面上,選擇您要啟用快照保留最佳化工具的 Iceberg 資料表,然後在動作功能表下,選擇最佳化下的啟用

    您也可以選取資料表並開啟資料表詳細資訊頁面,以啟用最佳化。選擇頁面下一節的資料表最佳化索引標籤,然後選擇啟用快照保留

  4. 啟用最佳化頁面的最佳化組態下,您有兩個選項:使用預設設定自訂設定。如果您選擇使用預設設定, AWS Glue 會利用 Iceberg 資料表組態中定義的屬性來決定快照保留期間和要保留的快照數量。如果沒有此組態, AWS Glue 會保留一個快照五天,並刪除與過期快照相關聯的檔案。

  5. 接下來,選擇 AWS Glue 可代表您擔任的 IAM 角色來執行最佳化工具。如需 IAM 角色所需許可的詳細資訊,請參閱 資料表最佳化先決條件 一節。

    請依照以下步驟更新現有 IAM 角色:

    1. 若要更新 IAM 角色的權限政策,請在 IAM 主控台中,前往用於執行壓縮程序的 IAM 角色。

    2. 在新增權限區段中,選擇建立政策。在新開啟的瀏覽器視窗中,建立要搭配您角色使用的新政策。

    3. 在建立政策頁面上,選擇 JSON 標籤。將先決條件中顯示的 JSON 程式碼複製到政策編輯器欄位。

  6. 如果您想要手動設定快照保留組態的值,請選擇自訂設定

    使用啟用保留 >自訂設定選項的 Apache Iceberg 資料表詳細資訊頁面。
  7. 選擇方塊 將選取的 IAM 角色套用至選取的最佳化工具選項,以對所有啟用所有最佳化工具的 使用單一 IAM 角色。

  8. 如果您有安全政策組態,其中 Iceberg 資料表最佳化工具需要從特定虛擬私有雲端 (VPC) 存取 Amazon S3 儲存貯體,請建立 AWS Glue 網路連線或使用現有的網路連線。

    如果您尚未設定 AWS Glue VPC 連線,請依照使用 AWS Glue 主控台或 AWS CLI/SDK 建立連接器連線區段中的步驟建立新的連線。

  9. 接下來,在快照保留組態下,選擇使用 Iceberg 資料表組態中指定的值,或指定快照保留期間 (history.expire.max-snapshot-age-ms) 和快照數目下限 (history.expire.min-snapshots-to-keep) 的自訂值來保留。

  10. 當資料表最佳化工具從資料表中繼資料中刪除舊快照時,選擇刪除相關聯的檔案以刪除基礎檔案。

    如果您不選擇此選項,從資料表中繼資料中移除較舊的快照時,其相關聯的檔案會保留在儲存體中做為孤立檔案。

  11. 接下來,請閱讀注意事項陳述式,然後選擇我確認以繼續。

    注意

    在 Data Catalog 中,快照保留最佳化工具會遵守由分支和標籤層級保留政策控制的生命週期。如需詳細資訊,請參閱 Iceberg 文件中的分支和標記一節。

  12. 檢閱組態,然後選擇啟用最佳化

    等待幾分鐘,讓保留最佳化工具根據組態執行和過期舊快照。

啟用壓縮功能後,資料表最佳化索引標籤會顯示下列壓縮詳細資料 (大約 15-20 分鐘後):

開始時間

快照保留最佳化工具啟動的時間。該值為以 UTC 時間為單位的時間戳記。

執行時間

時間顯示最佳化工具完成任務所需的時間。該值為以 UTC 時間為單位的時間戳記。

Status

最佳化工具執行的狀態。值會是 success 或 fail。

已刪除資料檔案

已刪除的檔案總數。

資訊清單檔案已刪除

已刪除的資訊清單檔案總數。

資訊清單清單已刪除

已刪除的資訊清單總數。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。