限制 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

限制

在数据湖框架与 AWS Glue 配合使用之前,请考虑以下限制。

  • 以下 AWS Glue GlueContext DynamicFrame 方法不支持读取和写入数据湖框架表。请改用 GlueContext DataFrame 方法或 Spark DataFrame API。

    • create_dynamic_frame.from_catalog

    • write_dynamic_frame.from_catalog

    • getDynamicFrame

    • writeDynamicFrame

  • 以下 GlueContext DataFrame 方法支持 Lake Formation 权限控制:

    • create_data_frame.from_catalog

    • write_data_frame.from_catalog

    • getDataFrame

    • writeDataFrame

  • 不支持对小文件进行分组

  • 不支持作业书签

  • Apache Hudi 0.10.1 for AWS Glue 3.0 不支持 Read (MoR) 表上的 Hudi Merge。

  • ALTER TABLE … RENAME TO 不适用于 Apache Iceberg 0.13.1 for AWS Glue 3.0。

有关由 Lake Formation 权限管理的数据湖格式表的限制

数据湖格式通过 Lake Formation 权限与 AWS Glue ETL 集成。不支持使用 create_dynamic_frame 创建 DynamicFrame。有关更多信息,请参阅以下示例:

注意

仅在 AWS Glue 版本 4.0 中支持通过适用于 Apache Hudi、Apache Iceberg 和 Delta Lake 的 Lake Formation 权限与 AWS Glue ETL 集成。

Apache Iceberg 通过 Lake Formation 权限与 AWS Glue ETL 集成的效果最好。它支持几乎所有操作,包括支持 SQL。

Hudi 支持除管理操作之外的大多数基本操作。这是因为这些选项通常通过写入 DataFrame 来完成,并通过 additional_options 指定。由于不支持 SparkSQL,因此需要使用 AWS Glue API 来为您的操作创建 DataFrame。

Delta Lake 仅支持读取、附加和覆盖表数据。Delta Lake 需要使用自己的库才能执行更新等各种任务。

由 Lake Formation 权限管理的 Iceberg 表不支持以下功能。

  • 使用 ETL AWS Glue 进行压缩

  • 通过 AWS Glue ETL 支持 Spark SQL

由 Lake Formation 权限管理的 Hudi 表存在以下限制:

  • 移除孤立文件

由 Lake Formation 权限管理的 Delta Lake 表存在以下限制:

  • 除在 Delta Lake 表中插入和读取数据的所有其他功能。