本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon EMR on EKS 6.9.0 版本
以下 Amazon EMR 6.9.0 版本适用于 Amazon EMR on EKS。选择特定的 emr-6.9.0-XXXX 版本以查看更多详细信息,例如相关的容器映像标签。
-
emr-6.9.0-spark-rapids-latest
-
emr-6.9.0-spark-rapids-20230624
-
emr-6.9.0-spark-rapids-20221108
-
notebook-spark/emr-6.9.0-latest
-
notebook-spark/emr-6.9.0-20230624
-
notebook-spark/emr-6.9.0-20221108
-
notebook-python/emr-6.9.0-latest
-
notebook-python/emr-6.9.0-20230624
-
notebook-python/emr-6.9.0-20221108
Amazon EMR 6.9.0 的发布说明
-
支持的应用程序- AWS SDK for Java 1.12.331、Spark 3.3.0-amzn-1、Hudi 0.12.1-amzn-0、Iceberg 0.14.1-amzn-0、Delta 2.1.0。
-
支持的组件:
aws-sagemaker-spark-sdk
、emr-ddb
、emr-goodies
、emr-s3-select
、emrfs
、hadoop-client
、hudi
、hudi-spark
、iceberg
、spark-kubernetes
。 -
受支持的配置分类:
与StartJobRun和一起使用 CreateManagedEndpoint APIs:
分类 描述 core-site
更改 Hadoop 的 core-site.xml 文件中的值。
emrfs-site
更改 EMRFS 设置。
spark-metrics
更改 Spark 的 metrics.properties 文件中的值。
spark-defaults
更改 Spark 的 spark-defaults.conf 文件中的值。
spark-env
更改 Spark 环境中的值。
spark-hive-site
更改 Spark 的 hive-site.xml 文件中的值。
spark-log4j
更改 Spark 的 log4j.properties 文件中的值。
专门用于以下用途 CreateManagedEndpoint APIs:
分类 描述 jeg-config
更改 Jupyter Enterprise Gateway
jupyter_enterprise_gateway_config.py
文件中的值。jupyter-kernel-overrides
更改 Jupyter 内核规范文件中内核映像的值。
配置分类允许您自定义应用程序。这些通常与应用程序的配置 XML 文件(例如
spark-hive-site.xml
)相对应。有关更多信息,请参阅配置应用程序。
显著功能
-
适用于 Apache Spark 的 Nvidia RAPIDS Ac celerator — EKS 上的 Amazon EMR, EC2 使用图形处理单元 (GPU) 实例类型加速 Spark。要将 Spark 图像与 RAPIDS Accelerator 一起使用,请将发布标签指定为 emr-6.9.0-。spark-rapids-latest请访问文档页面以了解更多信息。
-
Spark-Redshift 连接器:Amazon EMR 发行版 6.9.0 及更高版本包含适用于 Apache Spark 的 Amazon Redshift 集成。本地集成之前是一种开源工具,现在是 Spark 连接器,您可以将其用于构建 Apache Spark 应用程序,这些应用程序可在 Amazon Redshift 和 Amazon Redshift Serverless 中读取和写入数据。有关更多信息,请参阅 在 Amazon EMR on EKS 上使用适用于 Apache Spark 的 Amazon Redshift 集成。
-
Delta Lake:Delta Lake
是一种开源存储格式,可以构建具有事务一致性、对数据集进行一致定义、更改架构发展和数据的数据湖。请访问 使用 Delta Lake 以了解更多信息。 -
修改 PySpark 参数 ——交互式端点现在支持修改与 EMR Studio Jupyter 笔记本中的 PySpark 会话关联的 Spark 参数。要了解更多信息,请访问修改会 PySpark 话参数。
已解决的问题
-
在 Amazon EMR 版本 6.6.0、6.7.0 和 6.8.0 上将 DynamoDB 连接器与 Spark 结合使用时,即使输入拆分引用了非空数据,表中的所有读取都会返回空结果。Amazon EMR 发行版 6.9.0 修复了此问题。
-
Amazon EMR on EKS 6.8.0 错误地填充了使用 Apache Spark
生成的 Parquet 文件元数据中的构建哈希。此问题可能会导致解析由 Amazon EMR on EKS 6.8.0 生成的 Parquet 文件中的元数据版本字符串的工具失败。
已知问题
-
如果您使用适用于 Apache Spark 的 Amazon Redshift 集成,并且具有 Parquet 格式的时间、timetz、时间戳或 timestamptz(精度为微秒),连接器会将时间值舍入为最接近的毫秒值。解决方法是使用文本卸载格式
unload_s3_format
参数。