Amazon EMR en las EKS versiones 6.9.0

Las siguientes versiones de Amazon EMR 6.9.0 están disponibles para Amazon EMR enEKS. Selecciona una XXXX versión específica de emr-6.9.0- para ver más detalles, como la etiqueta de imagen del contenedor correspondiente.

emr-6.9.0-latest
emr-6.9.0-20230905
emr-6.9.0-20230624
emr-6.9.0-20221108
emr-6.9.0- spark-rapids-latest
emr-6.9.0-spark-rapids-20230624
emr-6.9.0-spark-rapids-20221108
notebook-spark/emr-6.9.0-latest
notebook-spark/emr-6.9.0-20230624
notebook-spark/emr-6.9.0-20221108
notebook-python/emr-6.9.0-latest
notebook-python/emr-6.9.0-20230624
notebook-python/emr-6.9.0-20221108

Notas de publicación de Amazon EMR 6.9.0

Aplicaciones compatibles: AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0 y Delta 2.1.0.
Componentes compatibles: aws-sagemaker-spark-sdk, emr-ddb, emr-goodies, emr-s3-select, emrfs, hadoop-client, hudi, hudi-spark, iceberg, spark-kubernetes.

Clasificaciones de configuración compatibles:

StartJobRunPara CreateManagedEndpointAPIsusar con y:

Clasificaciones	Descripciones
`core-site`	Cambia los valores en el archivo core-site.xml de Hadoop.
`emrfs-site`	Cambiar EMRFS la configuración.
`spark-metrics`	Cambiar los valores en el archivo metrics.properties de Spark.
`spark-defaults`	Cambiar los valores en el archivo spark-defaults.conf de Spark.
`spark-env`	Cambiar los valores en el entorno de Spark.
`spark-hive-site`	Cambia los valores en el archivo hive-site.xml de Spark.
`spark-log4j`	Cambiar los valores en el archivo log4j.properties de Spark.

Para usar específicamente con CreateManagedEndpointAPIs:

Clasificaciones	Descripciones
`jeg-config`	Cambia los valores en el archivo `jupyter_enterprise_gateway_config.py` de Jupyter Enterprise Gateway.
`jupyter-kernel-overrides`	Cambia el valor de la imagen del kernel en el archivo de especificaciones del kernel de Jupyter.

Las clasificaciones de configuración le permiten personalizar las aplicaciones. Suelen corresponder a un XML archivo de configuración de la aplicación, por ejemplospark-hive-site.xml. Para obtener más información, consulte Configuración de aplicaciones.

Características notables

Nvidia RAPIDS Accelerator para Apache Spark ‐ EMR Amazon EKS acelerará Spark mediante tipos de instancias de unidades de procesamiento EC2 gráfico (GPU). Para usar la imagen de Spark con RAPIDS Accelerator, especifique la etiqueta de lanzamiento como emr-6.9.0-. spark-rapids-latest Visite la página de documentación para obtener más información.
Conector Spark-Redshift ‐ La integración de Amazon Redshift para Apache Spark se incluye en las versiones 6.9.0 y posteriores de AmazonEMR. La integración nativa, que anteriormente era una herramienta de código abierto, es un conector de Spark que puede utilizar para crear aplicaciones de Apache Spark que leen y escriben datos en Amazon Redshift y Amazon Redshift sin servidor. Para obtener más información, consulte Uso de la integración de Amazon Redshift para Apache Spark en Amazon EMR en EKS.
Delta Lake: Delta Lake es un formato de almacenamiento de código abierto que permite crear lagos de datos con coherencia transaccional, una definición coherente de los conjuntos de datos, cambios en la evolución de los esquemas y compatibilidad con las mutaciones de datos. Visite Uso de Delta Lake para obtener más información.
Modificación de PySpark parámetros: los puntos finales interactivos ahora admiten la modificación de los parámetros de Spark asociados a las PySpark sesiones del Studio Jupyter Notebook. EMR Consulta Modificación de los parámetros PySpark de la sesión para obtener más información.

Problemas resueltos

Cuando utilizas el conector DynamoDB con Spark en las versiones 6.6.0, 6.7.0 y 6.8.0 de EMR Amazon, todas las lecturas de la tabla arrojan un resultado vacío, aunque la división de entrada haga referencia a datos que no estén vacíos. La EMR versión 6.9.0 de Amazon corrige este problema.
Amazon EMR en la EKS versión 6.8.0 rellena incorrectamente el hash de compilación en los metadatos de los archivos Parquet generados con Apache Spark. Este problema puede provocar un error en las herramientas que analizan la cadena de versión de metadatos de los archivos Parquet generados por Amazon EMR en la versión EKS 6.8.0.

Problema conocido

Si utiliza la integración de Amazon Redshift para Apache Spark y tiene un valor de time, timetz, timestamp o timestamptz con una precisión de microsegundos en formato Parquet, el conector redondea los valores de tiempo al valor de milisegundos más cercano. Como solución alternativa, utilice el parámetro unload_s3_format de formato de descarga de texto.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

emr-6.10.0-20230220

emr-6.9.0-latest