Rilasci 6.8.0 di Amazon EMR su EKS - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Rilasci 6.8.0 di Amazon EMR su EKS

I seguenti rilasci 6.8.0 di Amazon EMR sono disponibili per Amazon EMR su EKS. Seleziona un rilascio emr-6.8.0-XXXX specifico per visualizzare ulteriori dettagli, come il relativo tag dell'immagine di container.

Note di rilascio di Amazon EMR 6.8.0

  • Applicazioni supportate ‐ AWS SDK for Java 1.12.170, Spark 3.3.0-amzn-0, Hudi 0.11.1-amzn-0, Iceberg 0.14.0-amzn-0.

  • Componenti supportati: aws-sagemaker-spark-sdk, emr-ddb, emr-goodies, emr-s3-select, emrfs, hadoop-client, hudi, hudi-spark, iceberg, spark-kubernetes.

  • Classificazioni di configurazione supportate:

    Classificazioni Descrizioni

    core-site

    Modifica i valori nel file core-site.xml di Hadoop.

    emrfs-site

    Modifica le impostazioni EMRFS.

    spark-metrics

    Modifica i valori nel file metrics.properties di Spark.

    spark-defaults

    Modifica i valori nel file spark-defaults.conf di Spark.

    spark-env

    Modifica i valori nell'ambiente Spark.

    spark-hive-site

    Modifica i valori nel file hive-site.xml di Spark.

    spark-log4j

    Modifica i valori nel file log4j.properties di Spark.

    Le classificazioni di configurazione consentono di personalizzare le applicazioni. Spesso corrispondono a un file XML di configurazione per l'applicazione, ad esempio spark-hive-site.xml. Per ulteriori informazioni, consulta la sezione Configurazione delle applicazioni.

Caratteristiche da tenere in considerazione

  • Spark3.3.0 ‐ Amazon EMR su EKS 6.8 include Spark 3.3.0, che supporta l'uso di etichette di selezione del nodo separate per i pod Spark Driver Executor. Queste nuove etichette consentono di definire i tipi di nodi per i pod driver ed executor separatamente nell'API, senza utilizzare modelli di pod. StartJobRun

    • Proprietà del selettore del nodo driver: spark.kubernetes.driver.node.selector.[labelKey]

    • Proprietà dell'executor del nodo driver: spark.kubernetes.executor.node.selector.[labelKey]

  • Messaggio di errore dei processi migliorato: in questo rilascio è stata introdotta la funzione configurazione spark.stage.extraDetailsOnFetchFailures.enabled e spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude per tenere traccia degli errori delle attività dovuti al codice utente. Questi dettagli verranno utilizzati per migliorare il messaggio di errore visualizzato nel log del driver quando una fase viene interrotta a causa di un errore di recupero casuale.

    Nome proprietà Valore predefinito Significato Dalla versione

    spark.stage.extraDetailsOnFetchFailures.enabled

    false

    Se impostato su true, questa proprietà viene utilizzata per migliorare il messaggio di errore visualizzato nel log del driver quando una fase viene interrotta a causa di un errore di recupero casuale. Per impostazione predefinita, vengono tracciati gli ultimi 5 errori causati dal codice utente e il messaggio di errore viene aggiunto nei registri dei driver.

    Per aumentare il numero di errori delle attività con le eccezioni degli utenti da monitorare, consulta la configurazione spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude.

    emr-6.8

    spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude

    5

    Numero di operazioni non riuscite per monitorare per fase e tentativo. Questa proprietà viene utilizzata per migliorare il messaggio di errore con eccezioni utente visualizzato nel registro del log quando una fase viene interrotta a causa di un errore di recupero casuale.

    Questa proprietà funziona solo se Config spark.stage. extraDetailsOnFetchFailures.enabled è impostato su true.

    emr-6.8

Per ulteriori informazioni, documentazione di configurazione di Apache Spark.

Problema noto

  • Amazon EMR su EKS 6.8.0 popola erroneamente l'hash di compilazione nei metadati dei file Parquet generati con Apache Spark. Questo problema può causare il fallimento degli strumenti che analizzano la stringa della versione dei metadati dai file Parquet generati da Amazon EMR su EKS 6.8.0. I clienti che analizzano la stringa della versione dai metadati di Parquet e dipendono dall'hash di compilazione devono passare a una versione diversa di Amazon EMR e riscrivere il file.

Problema risolto

  • Funzionalità Interrupt Kernel per i kernel PySpark: i carichi di lavoro interattivi in corso che vengono attivati dall'esecuzione di celle in un notebook possono essere interrotti utilizzando la funzionalità Interrupt Kernel. È stata introdotta una correzione in modo che questa funzionalità funzioni per i kernel pySpark. È disponibile anche in versione open source all'indirizzo Changes for handling interrupts for PySpark Kubernetes Kernel #1115.