Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Amazon EMR en las EKS versiones 6.9.0
Las siguientes versiones de Amazon EMR 6.9.0 están disponibles para Amazon EMR enEKS. Selecciona una XXXX versión específica de emr-6.9.0- para ver más detalles, como la etiqueta de imagen del contenedor correspondiente.
-
emr-6.9.0- spark-rapids-latest
-
emr-6.9.0-spark-rapids-20230624
-
emr-6.9.0-spark-rapids-20221108
-
notebook-spark/emr-6.9.0-latest
-
notebook-spark/emr-6.9.0-20230624
-
notebook-spark/emr-6.9.0-20221108
-
notebook-python/emr-6.9.0-latest
-
notebook-python/emr-6.9.0-20230624
-
notebook-python/emr-6.9.0-20221108
Notas de publicación de Amazon EMR 6.9.0
-
Aplicaciones compatibles: AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0 y Delta 2.1.0.
-
Componentes compatibles:
aws-sagemaker-spark-sdk
,emr-ddb
,emr-goodies
,emr-s3-select
,emrfs
,hadoop-client
,hudi
,hudi-spark
,iceberg
,spark-kubernetes
. -
Clasificaciones de configuración compatibles:
StartJobRunPara CreateManagedEndpointAPIsusar con y:
Clasificaciones Descripciones core-site
Cambia los valores en el archivo core-site.xml de Hadoop.
emrfs-site
Cambiar EMRFS la configuración.
spark-metrics
Cambiar los valores en el archivo metrics.properties de Spark.
spark-defaults
Cambiar los valores en el archivo spark-defaults.conf de Spark.
spark-env
Cambiar los valores en el entorno de Spark.
spark-hive-site
Cambia los valores en el archivo hive-site.xml de Spark.
spark-log4j
Cambiar los valores en el archivo log4j.properties de Spark.
Para usar específicamente con CreateManagedEndpointAPIs:
Clasificaciones Descripciones jeg-config
Cambia los valores en el archivo
jupyter_enterprise_gateway_config.py
de Jupyter Enterprise Gateway.jupyter-kernel-overrides
Cambia el valor de la imagen del kernel en el archivo de especificaciones del kernel de Jupyter.
Las clasificaciones de configuración le permiten personalizar las aplicaciones. Suelen corresponder a un XML archivo de configuración de la aplicación, por ejemplo
spark-hive-site.xml
. Para obtener más información, consulte Configuración de aplicaciones.
Características notables
-
Nvidia RAPIDS Accelerator para Apache Spark ‐ EMR Amazon EKS acelerará Spark mediante tipos de instancias de unidades de procesamiento EC2 gráfico (GPU). Para usar la imagen de Spark con RAPIDS Accelerator, especifique la etiqueta de lanzamiento como emr-6.9.0-. spark-rapids-latest Visite la página de documentación para obtener más información.
-
Conector Spark-Redshift ‐ La integración de Amazon Redshift para Apache Spark se incluye en las versiones 6.9.0 y posteriores de AmazonEMR. La integración nativa, que anteriormente era una herramienta de código abierto, es un conector de Spark que puede utilizar para crear aplicaciones de Apache Spark que leen y escriben datos en Amazon Redshift y Amazon Redshift sin servidor. Para obtener más información, consulte Uso de la integración de Amazon Redshift para Apache Spark en Amazon EMR en EKS.
-
Delta Lake: Delta Lake
es un formato de almacenamiento de código abierto que permite crear lagos de datos con coherencia transaccional, una definición coherente de los conjuntos de datos, cambios en la evolución de los esquemas y compatibilidad con las mutaciones de datos. Visite Uso de Delta Lake para obtener más información. -
Modificación de PySpark parámetros: los puntos finales interactivos ahora admiten la modificación de los parámetros de Spark asociados a las PySpark sesiones del Studio Jupyter Notebook. EMR Consulta Modificación de los parámetros PySpark de la sesión para obtener más información.
Problemas resueltos
-
Cuando utilizas el conector DynamoDB con Spark en las versiones 6.6.0, 6.7.0 y 6.8.0 de EMR Amazon, todas las lecturas de la tabla arrojan un resultado vacío, aunque la división de entrada haga referencia a datos que no estén vacíos. La EMR versión 6.9.0 de Amazon corrige este problema.
-
Amazon EMR en la EKS versión 6.8.0 rellena incorrectamente el hash de compilación en los metadatos de los archivos Parquet generados con Apache
Spark. Este problema puede provocar un error en las herramientas que analizan la cadena de versión de metadatos de los archivos Parquet generados por Amazon EMR en la versión EKS 6.8.0.
Problema conocido
-
Si utiliza la integración de Amazon Redshift para Apache Spark y tiene un valor de time, timetz, timestamp o timestamptz con una precisión de microsegundos en formato Parquet, el conector redondea los valores de tiempo al valor de milisegundos más cercano. Como solución alternativa, utilice el parámetro
unload_s3_format
de formato de descarga de texto.