啟用壓實最佳化工具 - AWS 連接詞

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

啟用壓實最佳化工具

您可以使用... AWS Glue 控制台, AWS CLI,或 AWS API為您的 Apache 冰山表啟用壓實 AWS Glue 資料目錄。針對新的資料表,您可以選擇 Apache Iceberg 作為資料表格式,並在您建立資料表時啟用壓縮功能。新資料表依預設會停用壓縮功能。

Console
啟用壓縮功能
  1. 打開 AWS Glue 主控台,https://console.aws.amazon.com/glue/並以資料湖管理員、表格建立者或已獲得資料表glue:UpdateTablelakeformation:GetDataAccess權限的使用者身分登入。

  2. 在導覽面板的 Data Catalog 下方,選擇資料表

  3. 在 [格] 頁面上,選擇您要啟用壓縮的開啟表格格式的表格,然後在 [動] 功能表下選擇 [最佳化],然後選擇 [啟用]。

    您也可以選取 [表格細資訊] 頁面上的 [表格最佳化] 索引標籤來啟用壓縮。選擇頁面下半區段的資料表最佳化索引標籤,然後選擇啟用壓縮

    當您在資料目錄中建立新的 Iceberg 表格時,也可以使用「啟用最佳化」選項。

  4. 在 [啟用最佳化] 頁面上,選擇 [最佳化選項] 下的 [壓縮]

    阿帕奇冰山表詳細信息頁面與啟用壓實選項。
  5. 接下來,從下拉式清單中選取具有 資料表最佳化先決條件 區段中顯示權限的IAM角色。

    您也可以選擇 [建立新IAM角色] 選項,建立具有執行壓縮所需權限的自訂角色。

    請依照下列步驟更新現有IAM角色:

    1. 若要更新IAM角色的權限原則,請在IAM主控台中移至用於執行壓縮的IAM角色。

    2. 在 [新增權限] 區段中,選擇 [建立原則]。在新開啟的瀏覽器視窗中,建立要搭配您角色使用的新政策。

    3. 在 [建立原則] 頁面上,選擇索JSON引標籤。將 [必要條件] 中顯示的JSON程式碼複製到原則編輯器欄位中。

  6. 選擇啟用最佳化

AWS CLI

下列範例顯示如何啟用壓縮功能。將帳號 ID 取代為有效 AWS 帳戶識別碼。將資料庫名稱和資料表名稱取代為實際的 Iceberg 資料表名稱和資料庫名稱。取roleArn代為 AWS IAM角色的資源名稱 (ARN),以及具有執行壓縮所需權限之IAM角色的名稱。

aws glue create-table-optimizer \ --catalog-id 123456789012 \ --database-name iceberg_db \ --table-name iceberg_table \ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role", "enabled":'true'}' \ --type compaction
AWS API

呼叫 CreateTableOptimizer 操作以啟用資料表的壓縮功能。

啟用壓縮功能後,資料表最佳化索引標籤會顯示下列壓縮詳細資料 (大約 15-20 分鐘後):

開始時間

壓實程序在資料目錄中開始的時間。該值是時UTC間戳記。

結束時間

壓實程序在資料目錄中結束的時間。該值是時UTC間戳記。

Status

壓實執行的狀態。值會是 success 或 fail。

壓縮的檔案

壓縮的檔案總數。

字節壓縮

壓縮的字節總數。