Rilasci 6.8.0 di Amazon EMR su EKS

I seguenti rilasci 6.8.0 di Amazon EMR sono disponibili per Amazon EMR su EKS. Seleziona un rilascio emr-6.8.0-XXXX specifico per visualizzare ulteriori dettagli, come il relativo tag dell'immagine di container.

Note di rilascio di Amazon EMR 6.8.0

Applicazioni supportate ‐ AWS SDK for Java 1.12.170, Spark 3.3.0-amzn-0, Hudi 0.11.1-amzn-0, Iceberg 0.14.0-amzn-0.
Componenti supportati: aws-sagemaker-spark-sdk, emr-ddb, emr-goodies, emr-s3-select, emrfs, hadoop-client, hudi, hudi-spark, iceberg, spark-kubernetes.

Classificazioni di configurazione supportate:

Classificazioni	Descrizioni
`core-site`	Modifica i valori nel file core-site.xml di Hadoop.
`emrfs-site`	Modifica le impostazioni EMRFS.
`spark-metrics`	Modifica i valori nel file metrics.properties di Spark.
`spark-defaults`	Modifica i valori nel file spark-defaults.conf di Spark.
`spark-env`	Modifica i valori nell'ambiente Spark.
`spark-hive-site`	Modifica i valori nel file hive-site.xml di Spark.
`spark-log4j`	Modifica i valori nel file log4j.properties di Spark.

Le classificazioni di configurazione consentono di personalizzare le applicazioni. Spesso corrispondono a un file XML di configurazione per l'applicazione, ad esempio spark-hive-site.xml. Per ulteriori informazioni, consulta la sezione Configurazione delle applicazioni.

Caratteristiche da tenere in considerazione

Spark3.3.0 ‐ Amazon EMR su EKS 6.8 include Spark 3.3.0, che supporta l'uso di etichette di selezione del nodo separate per i pod Spark Driver Executor. Queste nuove etichette consentono di definire i tipi di nodi per i pod driver ed executor separatamente nell'API, senza utilizzare modelli di pod. StartJobRun
- Proprietà del selettore del nodo driver: spark.kubernetes.driver.node.selector.[labelKey]
- Proprietà dell'executor del nodo driver: spark.kubernetes.executor.node.selector.[labelKey]

Messaggio di errore dei processi migliorato: in questo rilascio è stata introdotta la funzione configurazione spark.stage.extraDetailsOnFetchFailures.enabled e spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude per tenere traccia degli errori delle attività dovuti al codice utente. Questi dettagli verranno utilizzati per migliorare il messaggio di errore visualizzato nel log del driver quando una fase viene interrotta a causa di un errore di recupero casuale.

Nome proprietà Valore predefinito Significato Dalla versione

Nome proprietà	Valore predefinito	Significato	Dalla versione
`spark.stage.extraDetailsOnFetchFailures.enabled`	false	Se impostato su `true`, questa proprietà viene utilizzata per migliorare il messaggio di errore visualizzato nel log del driver quando una fase viene interrotta a causa di un errore di recupero casuale. Per impostazione predefinita, vengono tracciati gli ultimi 5 errori causati dal codice utente e il messaggio di errore viene aggiunto nei registri dei driver. Per aumentare il numero di errori delle attività con le eccezioni degli utenti da monitorare, consulta la configurazione `spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude`.	emr-6.8
`spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude`	5	Numero di operazioni non riuscite per monitorare per fase e tentativo. Questa proprietà viene utilizzata per migliorare il messaggio di errore con eccezioni utente visualizzato nel registro del log quando una fase viene interrotta a causa di un errore di recupero casuale. Questa proprietà funziona solo se Config spark.stage. extraDetailsOnFetchFailures.enabled è impostato su true.	emr-6.8

spark.stage.extraDetailsOnFetchFailures.enabled

false

Se impostato su true, questa proprietà viene utilizzata per migliorare il messaggio di errore visualizzato nel log del driver quando una fase viene interrotta a causa di un errore di recupero casuale. Per impostazione predefinita, vengono tracciati gli ultimi 5 errori causati dal codice utente e il messaggio di errore viene aggiunto nei registri dei driver.

Per aumentare il numero di errori delle attività con le eccezioni degli utenti da monitorare, consulta la configurazione spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude.

emr-6.8

spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude

Numero di operazioni non riuscite per monitorare per fase e tentativo. Questa proprietà viene utilizzata per migliorare il messaggio di errore con eccezioni utente visualizzato nel registro del log quando una fase viene interrotta a causa di un errore di recupero casuale.

Questa proprietà funziona solo se Config spark.stage. extraDetailsOnFetchFailures.enabled è impostato su true.

emr-6.8

Per ulteriori informazioni, documentazione di configurazione di Apache Spark.

Problema noto

Amazon EMR su EKS 6.8.0 popola erroneamente l'hash di compilazione nei metadati dei file Parquet generati con Apache Spark. Questo problema può causare il fallimento degli strumenti che analizzano la stringa della versione dei metadati dai file Parquet generati da Amazon EMR su EKS 6.8.0. I clienti che analizzano la stringa della versione dai metadati di Parquet e dipendono dall'hash di compilazione devono passare a una versione diversa di Amazon EMR e riscrivere il file.

Problema risolto

Funzionalità Interrupt Kernel per i kernel PySpark: i carichi di lavoro interattivi in corso che vengono attivati dall'esecuzione di celle in un notebook possono essere interrotti utilizzando la funzionalità Interrupt Kernel. È stata introdotta una correzione in modo che questa funzionalità funzioni per i kernel pySpark. È disponibile anche in versione open source all'indirizzo Changes for handling interrupts for PySpark Kubernetes Kernel #1115.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

emr-6.9.0-20221108

emr-6.8.0-latest