Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Rilasci 6.9.0 di Amazon EMR su EKS
I seguenti rilasci 6.9.0 di Amazon EMR sono disponibili per Amazon EMR su EKS. Seleziona un rilascio emr-6.9.0-XXXX specifico per visualizzare ulteriori dettagli, come il relativo tag dell'immagine di container.
-
emr-6.9.0- spark-rapids-latest
-
emr-6.9.0-spark-rapids-20230624
-
emr-6.9.0-spark-rapids-20221108
-
notebook-spark/emr-6.9.0-latest
-
notebook-spark/emr-6.9.0-20230624
-
notebook-spark/emr-6.9.0-20221108
-
notebook-python/emr-6.9.0-latest
-
notebook-python/emr-6.9.0-20230624
-
notebook-python/emr-6.9.0-20221108
Note di rilascio di Amazon EMR 6.9.0
-
Applicazioni supportate ‐ AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.
-
Componenti supportati:
aws-sagemaker-spark-sdk
,emr-ddb
,emr-goodies
,emr-s3-select
,emrfs
,hadoop-client
,hudi
,hudi-spark
,iceberg
,spark-kubernetes
. -
Classificazioni di configurazione supportate:
StartJobRunDa CreateManagedEndpoint APIsusare con e:
Classificazioni Descrizioni core-site
Modifica i valori nel file core-site.xml di Hadoop.
emrfs-site
Modifica le impostazioni EMRFS.
spark-metrics
Modifica i valori nel file metrics.properties di Spark.
spark-defaults
Modifica i valori nel file spark-defaults.conf di Spark.
spark-env
Modifica i valori nell'ambiente Spark.
spark-hive-site
Modifica i valori nel file hive-site.xml di Spark.
spark-log4j
Modifica i valori nel file log4j.properties di Spark.
Da utilizzare specificamente con CreateManagedEndpoint APIs:
Classificazioni Descrizioni jeg-config
Modifica i valori nel file
jupyter_enterprise_gateway_config.py
Jupyter Enterprise Gateway.jupyter-kernel-overrides
Modifica il valore per l'immagine del kernel nel file Jupyter Kernel Spec.
Le classificazioni di configurazione consentono di personalizzare le applicazioni. Spesso corrispondono a un file XML di configurazione per l'applicazione, ad esempio
spark-hive-site.xml
. Per ulteriori informazioni, consulta la sezione Configurazione delle applicazioni.
Funzionalità significative
-
Nvidia RAPIDS Accelerator for Apache Spark ‐ Amazon EMR su EKS per accelerare Spark utilizzando tipi di istanze di unità di elaborazione EC2 grafica (GPU). Per utilizzare l'immagine Spark con RAPIDS Accelerator, specifica l'etichetta di rilascio come emr-6.9.0-. spark-rapids-latest Per maggiori informazioni, consulta la pagina della documentazione.
-
Connettore Spark-Redshift: l'integrazione di Amazon Redshift per Apache Spark è inclusa in Amazon EMR rilascio 6.9.0 e successivi. In precedenza uno strumento open source, l'integrazione nativa è un connettore Spark che è possibile utilizzare per creare applicazioni Apache Spark in grado di leggere e scrivere dati in Amazon Redshift e Amazon Redshift Serverless. Per ulteriori informazioni, consulta Uso dell'integrazione di Amazon Redshift per Apache Spark in Amazon EMR su EKS.
-
Delta Lake: Delta Lake
è un formato di archiviazione open source che consente di creare data lake con coerenza transazionale, definizione coerente di set di dati, modifiche all'evoluzione dello schema e supporto per le mutazioni dei dati. Per maggiori informazioni, consulta la sezione Uso di Delta Lake. -
Modifica PySpark parametri ‐ Gli endpoint interattivi ora supportano la modifica dei parametri Spark associati alle PySpark sessioni in EMR Studio Jupyter Notebook. Visita Modificare i parametri della sessione per saperne di più. PySpark
Problemi risolti
-
Quando utilizzi il connettore DynamoDB con Spark nelle versioni 6.6.0, 6.7.0 e 6.8.0 di Amazon EMR, tutte le letture della tabella restituiscono un risultato vuoto, anche se la divisione di input fa riferimento a dati non vuoti. Amazon EMR rilascio 6.9.0 risolve questo problema.
-
Amazon EMR su EKS 6.8.0 popola in modo errato l'hash di compilazione nei metadati dei file Parquet generati con Apache Spark
. Questo problema può causare errori negli strumenti che analizzano la stringa della versione dei metadati dai file Parquet generati da Amazon EMR su EKS 6.8.0.
Problema noto
-
Se utilizzi l'integrazione di Amazon Redshift per Apache Spark e disponi di un'indicazione temporale time, timez, timestamp o timestamptz con una precisione di microsecondi in formato Parquet, il connettore arrotonda i valori temporali al valore in millisecondi più vicino. Come soluzione alternativa, utilizza il parametro
unload_s3_format
del formato di scaricamento del testo.