AWS Glue 版本 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Glue 版本

你可以配置 AWS Glue 添加或更新作业时的版本参数。这些区域有:AWS Glue 版本决定了 Apache Spark 和 Python 的版本 AWS Glue 支持。Python 版本指示了 Spark 类型的任务支持的版本。下表列出了可用的 AWS Glue 版本、相应的 Spark 和 Python 版本以及其他功能更改。

AWS Glue 版本

AWS Glue 版本 支持的运行时环境版本 支持的 Java 版本 功能更改
AWS Glue 4.0 Spark 环境版本
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue 4.0 是最新版本的 AWS Glue。 其中内置了多项优化和升级 AWS Glue 发布,例如:

  • Spark 功能从 Spark 3.1 到 Spark 3.3 进行了多项升级:

    • 与 Pandas 配对时的功能进行了多项改进。有关更多信息,请参阅 Python 3.3 中的新增功能

    • 在 Amazon EMR 上开发了其他优化。

    • 升级到EMR文件系统 (EMRFS) 2.53。

  • 从 Log4j 1.x 迁移到 Log4j 2

  • 来自的几个 Python 模块更新 AWS Glue 3.0,例如 Boto 的升级版。

  • 升级了多个连接器,其中包括默认的 Amazon Redshift 连接器。请参阅 附录 C:连接器升级

  • 升级多个JDBC驱动程序。请参阅 附录 B:JDBC 驱动程序升级

  • 更新了新的 Amazon Redshift 连接器和驱动程序。JDBC

  • 为 Apache Hudi、Delta Lake 和 Apache Iceberg 提供了本机开放式数据湖框架支持。

  • 为基于 Amazon S3 的 Cloud Shuffle 存储插件(Apache Spark 插件)提供了本机支持,从而可以使用 Amazon S3 实现随机排序和弹性存储功能。

限制

以下是限制 AWS Glue 4.0:

  • AWS Glue 机器学习和个人身份信息 (PII) 转换尚不可用 AWS Glue 4.0。

有关迁移到的更多信息 AWS Glue 版本 4.0,请参阅将 AWS Glue for Spark 作业迁移到 AWS Glue 版本 4.0

Ray 环境版本
  • Ray 2.4.0

    Python 3.9

不适用

使用 AWS Glue for Ray 构建和运行分布式 Python 应用程序。

AWS Glue 4.0 中对 Ray 作业的限制

  • AWS Glue 在本版本中,Ray 的交互式会话仍处于预览状态。

  • AWS Glue for Ray VPC 目前无法与亚马逊集成。如果没有公共路线, AWS 则无法访问输入VPC中的资源。有关 AWS Glue 与 Amazon 搭配使用的更多信息VPC,请参阅为 AWS Glue(AWS PrivateLink)配置接口 VPC 端点(AWS PrivateLink)

  • AWS Glue for Ray 在美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(俄勒冈)、亚太地区(东京)和欧洲(爱尔兰)上市。

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

除了将 Spark 引擎升级到 3.0 之外,还内置了优化和升级 AWS Glue 发布,例如:

  • 构建 AWS Glue ETL针对 Spark 3.0 的库,Spark 3.0 是 Spark 的主要版本。

  • 支持直播作业 AWS Glue 3.0。

  • 包括全新 AWS Glue Spark 运行时针对性能和可靠性进行了优化:

    • 基于 Apache Arrow 的内存中列式处理速度更快,用于读取数据。CSV

    • SIMD基于数据的矢量化读取的CSV执行。

    • Spark 升级还包括在亚马逊EMR上开发的其他优化。

    • EMRFS从 2.38 升级到 2.46,为访问 Amazon S3 启用了新功能和错误修复。

  • 升级了新 Spark 版本所需的几个依赖项。请参阅 附录 A:显著依赖项升级

  • 升级了我们原生支持的数据源的JDBC驱动程序。请参阅 附录 B:JDBC 驱动程序升级

限制

以下是限制 AWS Glue 3.0:

  • AWS Glue 机器学习变换尚未在中可用 AWS Glue 3.0。

  • 某些自定义 Spark 连接器不适用于 AWS Glue 如果它们依赖于 Spark 2.4 并且与 Spark 3.1 不兼容,则为 3.0。

有关迁移到的更多信息 AWS Glue 版本 3.0,请参阅将 AWS Glue for Spark 作业迁移到 AWS Glue 版本 3.0

AWS Glue 2.0(已弃用,支持终止
  • Spark 2.4.3

  • Python 3.7

不适用

除了中提供的功能外 AWS Glue 版本 1.0,AWS Glue 版本 2.0 还提供:

  • 升级后的基础架构,用于在中运行 Apache Spark ETL 作业 AWS Glue 缩短了启动时间。

  • 默认日志记录现在是实时的,具有驱动程序和执行程序的单独流以及输出和错误。

  • 支持在任务级别指定其他 Python 模块或不同版本。

注意

AWS Glue 版本 2.0 不同于 AWS Glue 1.0 版本适用于某些依赖项和由于底层架构变更而导致的版本。验证你的 AWS Glue 跨专业迁移之前的工作 AWS Glue 版本发布。

有关 AWS Glue 2.0 版的功能和限制,请参阅运行 Spark ETL 作业,缩短启动时间

AWS Glue 1.0(已弃用,支持终止
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

不适用

你可以维护 Parquet 的工作书签和ORC格式 AWS Glue ETL工作(使用 AWS Glue 版本 1.0)。以前,您只能为常见的 Amazon S3 源格式添加书签JSON,例如、CSV、Apache Avro 和 XML AWS Glue ETL工作。

为ETL输入和输出设置格式选项时,可以指定使用 Apache Avro 读取器/写入器格式 1.8 来支持 Avro 逻辑类型读写(使用 AWS Glue 版本 1.0)。以前,只支持版本 1.7 Avro 读取器/写入器格式。

DynamoDB 连接类型支持写入器选项(使用 AWS Glue 版本 1.0)。

限制

以下是限制 AWS Glue 1.0:

  • AWS Glue 版本 0.9 和 1.0 不适用于亚太地区(雅加达ap-southeast-3)()、中东 (UAEme-central-1) () 或未来的其他新区域。

AWS Glue 0.9(已弃用,支持终止
  • Spark 2.2.1

  • Python 2.7

不适用

未指定任务而创建的作业 AWS Glue 版本默认为 AWS Glue 0.9。

限制

以下是限制 AWS Glue 0.9:

  • AWS Glue 版本 0.9 和 1.0 不适用于亚太地区(雅加达ap-southeast-3)()、中东 (UAEme-central-1) () 或未来的其他新区域。

注意

以下 Glue 版本支持以下版本 PythonShell:

  • PythonShell Glue 1.0 版本支持 v3.6。

  • PythonShell Glue 3.0 版本支持 v3.9。

此外,仅在 Glue 版本 1.0 和 0.9 中支持开发端点。