启用压缩优化器 - AWS 连接词

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

启用压缩优化器

您可以使用 … AWS Glue 控制台, AWS CLI,或 AWS API为你的 Apache Iceberg 表启用压缩 AWS Glue 数据目录。对于新表,您可以在创建表时选择 Apache Iceberg 表格式并启用压缩。新表会默认禁用压缩。

Console
启用压缩
  1. 打开 AWS Glue 控制台,https://console.aws.amazon.com/glue/然后以数据湖管理员、表创建者或已被授予表glue:UpdateTablelakeformation:GetDataAccess权限的用户身份登录。

  2. 在导航窗格的数据目录下,选择

  3. 在 “” 页面上,选择要为其启用压缩功能的开放表格格式的表,然后在 “操作” 菜单下选择 “优化”,然后选择 “启用”。

    您也可以通过选择表格详细信息页面上的表优化选项卡来启用压缩。选择页面下半部的表优化选项卡,然后选择启用压缩

    在数据目录中创建新的 Iceberg 表时,“启用优化” 选项也可用。

  4. 在 “启用优化” 页面上,在 “优化选项” 下选择 “压缩”。

    同时选中“Apache Iceberg 表详细信息”页面和“启用压缩”选项。
  5. 接下来,从下拉列表中选择一个IAM角色,其权限如 表优化的先决条件 部分所示。

    您也可以选择 “创建新IAM角色” 选项来创建具有运行压缩所需权限的自定义角色。

    按照以下步骤更新现有IAM角色:

    1. 要更新该IAM角色的权限策略,请在IAM控制台中转到用于运行压缩的IAM角色。

    2. 添加权限部分中,选择创建策略。在新打开的浏览器窗口中,创建将用于您的角色的新策略。

    3. 在“创建策略”页面上,选择 JSON 选项卡。将 “先决条件” 中显示的JSON代码复制到策略编辑器字段中。

  6. 选择启用优化

AWS CLI

以下示例演示如何启用压缩。将账户 ID 替换为有效的账号 AWS 账号。将数据库名称和表名称替换为实际的 Iceberg 表名称和数据库名称。将roleArn替换为 AWS IAM角色的资源名称 (ARN) 和具有运行压缩所需权限的IAM角色的名称。

aws glue create-table-optimizer \ --catalog-id 123456789012 \ --database-name iceberg_db \ --table-name iceberg_table \ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role", "enabled":'true'}' \ --type compaction
AWS API

调用 CreateTableOptimizer 操作为表启用压缩。

启用压缩后,表优化选项卡会显示以下压缩详细信息(大约 15–20 分钟后):

开始时间

压缩进程在 Data Catalog 中启动的时间。该值是一个时间戳。UTC

结束时间

数据目录中压缩进程结束的时间。该值是一个时间戳。UTC

Status

压缩运行的状态。值为成功或失败。

已压缩的文件数

已压缩的文件总数。

已压缩的字节数

已压缩的字节总数。