Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Rilasci 6.8.0 di Amazon EMR su EKS
I seguenti rilasci 6.8.0 di Amazon EMR sono disponibili per Amazon EMR su EKS. Seleziona un rilascio emr-6.8.0-XXXX specifico per visualizzare ulteriori dettagli, come il relativo tag dell'immagine di container.
Note di rilascio di Amazon EMR 6.8.0
-
Applicazioni supportate ‐ AWS SDK for Java 1.12.170, Spark 3.3.0-amzn-0, Hudi 0.11.1-amzn-0, Iceberg 0.14.0-amzn-0.
-
Componenti supportati:
aws-sagemaker-spark-sdk
,emr-ddb
,emr-goodies
,emr-s3-select
,emrfs
,hadoop-client
,hudi
,hudi-spark
,iceberg
,spark-kubernetes
. -
Classificazioni di configurazione supportate:
Classificazioni Descrizioni core-site
Modifica i valori nel file core-site.xml di Hadoop.
emrfs-site
Modifica le impostazioni EMRFS.
spark-metrics
Modifica i valori nel file metrics.properties di Spark.
spark-defaults
Modifica i valori nel file spark-defaults.conf di Spark.
spark-env
Modifica i valori nell'ambiente Spark.
spark-hive-site
Modifica i valori nel file hive-site.xml di Spark.
spark-log4j
Modifica i valori nel file log4j.properties di Spark.
Le classificazioni di configurazione consentono di personalizzare le applicazioni. Spesso corrispondono a un file XML di configurazione per l'applicazione, ad esempio
spark-hive-site.xml
. Per ulteriori informazioni, consulta la sezione Configurazione delle applicazioni.
Caratteristiche da tenere in considerazione
-
Spark3.3.0 ‐ Amazon EMR su EKS 6.8 include Spark 3.3.0, che supporta l'uso di etichette di selezione del nodo separate per i pod Spark Driver Executor. Queste nuove etichette consentono di definire i tipi di nodi per i pod driver ed executor separatamente nell'API, senza utilizzare modelli di pod. StartJobRun
-
Proprietà del selettore del nodo driver: spark.kubernetes.driver.node.selector.[labelKey]
-
Proprietà dell'executor del nodo driver: spark.kubernetes.executor.node.selector.[labelKey]
-
-
Messaggio di errore dei processi migliorato: in questo rilascio è stata introdotta la funzione configurazione
spark.stage.extraDetailsOnFetchFailures.enabled
espark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude
per tenere traccia degli errori delle attività dovuti al codice utente. Questi dettagli verranno utilizzati per migliorare il messaggio di errore visualizzato nel log del driver quando una fase viene interrotta a causa di un errore di recupero casuale.Nome proprietà Valore predefinito Significato Dalla versione spark.stage.extraDetailsOnFetchFailures.enabled
false
Se impostato su
true
, questa proprietà viene utilizzata per migliorare il messaggio di errore visualizzato nel log del driver quando una fase viene interrotta a causa di un errore di recupero casuale. Per impostazione predefinita, vengono tracciati gli ultimi 5 errori causati dal codice utente e il messaggio di errore viene aggiunto nei registri dei driver.Per aumentare il numero di errori delle attività con le eccezioni degli utenti da monitorare, consulta la configurazione
spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude
.emr-6.8
spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude
5
Numero di operazioni non riuscite per monitorare per fase e tentativo. Questa proprietà viene utilizzata per migliorare il messaggio di errore con eccezioni utente visualizzato nel registro del log quando una fase viene interrotta a causa di un errore di recupero casuale.
Questa proprietà funziona solo se Config spark.stage. extraDetailsOnFetchFailures.enabled è impostato su true.
emr-6.8
Per ulteriori informazioni, documentazione di configurazione di Apache Spark
Problema noto
-
Amazon EMR su EKS 6.8.0 popola erroneamente l'hash di compilazione nei metadati dei file Parquet generati con Apache Spark
. Questo problema può causare il fallimento degli strumenti che analizzano la stringa della versione dei metadati dai file Parquet generati da Amazon EMR su EKS 6.8.0. I clienti che analizzano la stringa della versione dai metadati di Parquet e dipendono dall'hash di compilazione devono passare a una versione diversa di Amazon EMR e riscrivere il file.
Problema risolto
-
Funzionalità Interrupt Kernel per i kernel PySpark: i carichi di lavoro interattivi in corso che vengono attivati dall'esecuzione di celle in un notebook possono essere interrotti utilizzando la funzionalità
Interrupt Kernel
. È stata introdotta una correzione in modo che questa funzionalità funzioni per i kernel pySpark. È disponibile anche in versione open source all'indirizzo Changes for handling interrupts for PySpark KubernetesKernel #1115.