本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
啟用壓實最佳化工具
您可以使用... AWS Glue 控制台, AWS CLI,或 AWS API為您的 Apache 冰山表啟用壓實 AWS Glue 資料目錄。針對新的資料表,您可以選擇 Apache Iceberg 作為資料表格式,並在您建立資料表時啟用壓縮功能。新資料表依預設會停用壓縮功能。
- Console
-
啟用壓縮功能
-
打開 AWS Glue 主控台,https://console.aws.amazon.com/glue/並以資料湖管理員、表格建立者或已獲得資料表glue:UpdateTable
和lakeformation:GetDataAccess
權限的使用者身分登入。
-
在導覽面板的 Data Catalog 下方,選擇資料表。
在 [表格] 頁面上,選擇您要啟用壓縮的開啟表格格式的表格,然後在 [動作] 功能表下選擇 [最佳化],然後選擇 [啟用]。
您也可以選取 [表格詳細資訊] 頁面上的 [表格最佳化] 索引標籤來啟用壓縮。選擇頁面下半區段的資料表最佳化索引標籤,然後選擇啟用壓縮。
當您在資料目錄中建立新的 Iceberg 表格時,也可以使用「啟用最佳化」選項。
-
在 [啟用最佳化] 頁面上,選擇 [最佳化選項] 下的 [壓縮]
-
接下來,從下拉式清單中選取具有 資料表最佳化先決條件 區段中顯示權限的IAM角色。
您也可以選擇 [建立新IAM角色] 選項,建立具有執行壓縮所需權限的自訂角色。
請依照下列步驟更新現有IAM角色:
-
若要更新IAM角色的權限原則,請在IAM主控台中移至用於執行壓縮的IAM角色。
-
在 [新增權限] 區段中,選擇 [建立原則]。在新開啟的瀏覽器視窗中,建立要搭配您角色使用的新政策。
在 [建立原則] 頁面上,選擇索JSON
引標籤。將 [必要條件] 中顯示的JSON程式碼複製到原則編輯器欄位中。
-
選擇啟用最佳化。
- AWS CLI
-
下列範例顯示如何啟用壓縮功能。將帳號 ID 取代為有效 AWS 帳戶識別碼。將資料庫名稱和資料表名稱取代為實際的 Iceberg 資料表名稱和資料庫名稱。取roleArn
代為 AWS IAM角色的資源名稱 (ARN),以及具有執行壓縮所需權限之IAM角色的名稱。
aws glue create-table-optimizer \
--catalog-id 123456789012
\
--database-name iceberg_db
\
--table-name iceberg_table
\
--table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012
:role/optimizer_role
", "enabled":'true'}' \
--type compaction
- AWS API
-
呼叫 CreateTableOptimizer
操作以啟用資料表的壓縮功能。
啟用壓縮功能後,資料表最佳化索引標籤會顯示下列壓縮詳細資料 (大約 15-20 分鐘後):
- 開始時間
-
壓實程序在資料目錄中開始的時間。該值是時UTC間戳記。
- 結束時間
-
壓實程序在資料目錄中結束的時間。該值是時UTC間戳記。
- Status
-
壓實執行的狀態。值會是 success 或 fail。
- 壓縮的檔案
壓縮的檔案總數。
- 字節壓縮
-
壓縮的字節總數。