使用最新 AWS Glue 版本 -

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用最新 AWS Glue 版本

我们建议使用最新 AWS Glue 版本。每个版本中都内置了多项优化和升级,可以自动提高工作性能。例如, AWS Glue 4.0 提供了以下新功能:

  • 全新优化的 Apache Spark 3.0 运行时 — AWS Glue 4.0 在 Apache Spark 3.3.0 运行时的基础上构建,为开源 Spark 带来了与开源 Spark 相当的性能改进。Spark 3.0 运行时建立在 Spark 2.x 的许多创新之上。

  • 增强的亚马逊 Redshift 连接器 — AWS Glue 4.0 及更高版本为 Apache Spark 提供了亚马逊 Redshift 集成。该集成建立在现有的开源连接器之上,并增强了其性能和安全性。该集成可帮助应用程序的运行速度提高多达 10 倍。有关更多信息,请参阅有关亚马逊 Redshift 与 Apache Spark 集成的博客文章。

  • SIMD基于执行的矢量化读取CSV和JSON数据 — 3.0 及更高 AWS Glue 版本添加了优化的读取器,与基于行的读取器相比,可以显著提高整体作业性能。有关CSV数据的更多信息,请参阅使用矢量化SIMDCSV阅读器优化读取性能。有关JSON数据的更多信息,请参阅使用具有 Apache Arrow 列SIMDJSON格式的矢量化阅读器

每个 AWS Glue 版本都将包括此类升级,包括连接器、驱动程序和库更新。有关更多信息,请参阅AWS Glue 版本将 AWS Glue 任务迁移到 AWS Glue 版本 4.0