Amazon nelle EMR versioni EKS 6.9.0 - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Amazon nelle EMR versioni EKS 6.9.0

Le seguenti versioni di Amazon EMR 6.9.0 sono disponibili per Amazon EMR su. EKS Seleziona una XXXX versione emr-6.9.0- specifica per visualizzare ulteriori dettagli, come il relativo tag di immagine del contenitore.

  • emr-6.9.0-latest

  • emr-6.9.0-20230905

  • emr-6.9.0-20230624

  • emr-6.9.0-20221108

  • emr-6.9.0- spark-rapids-latest

  • emr-6.9.0-spark-rapids-20230624

  • emr-6.9.0-spark-rapids-20221108

  • notebook-spark/emr-6.9.0-latest

  • notebook-spark/emr-6.9.0-20230624

  • notebook-spark/emr-6.9.0-20221108

  • notebook-python/emr-6.9.0-latest

  • notebook-python/emr-6.9.0-20230624

  • notebook-python/emr-6.9.0-20221108

Note di versione per Amazon EMR 6.9.0

  • Applicazioni supportate ‐ AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.

  • Componenti supportati: aws-sagemaker-spark-sdk, emr-ddb, emr-goodies, emr-s3-select, emrfs, hadoop-client, hudi, hudi-spark, iceberg, spark-kubernetes.

  • Classificazioni di configurazione supportate:

    StartJobRunDa CreateManagedEndpointAPIsusare con e:

    Classificazioni Descrizioni

    core-site

    Modifica i valori nel file core-site.xml di Hadoop.

    emrfs-site

    Modificare EMRFS le impostazioni.

    spark-metrics

    Modifica i valori nel file metrics.properties di Spark.

    spark-defaults

    Modifica i valori nel file spark-defaults.conf di Spark.

    spark-env

    Modifica i valori nell'ambiente Spark.

    spark-hive-site

    Modifica i valori nel file hive-site.xml di Spark.

    spark-log4j

    Modifica i valori nel file log4j.properties di Spark.

    Da utilizzare specificamente con CreateManagedEndpointAPIs:

    Classificazioni Descrizioni

    jeg-config

    Modifica i valori nel file jupyter_enterprise_gateway_config.py Jupyter Enterprise Gateway.

    jupyter-kernel-overrides

    Modifica il valore per l'immagine del kernel nel file Jupyter Kernel Spec.

    Le classificazioni di configurazione consentono di personalizzare le applicazioni. Spesso corrispondono a un XML file di configurazione per l'applicazione, ad esempiospark-hive-site.xml. Per ulteriori informazioni, consulta la sezione Configurazione delle applicazioni.

Funzionalità significative

  • Nvidia RAPIDS Accelerator for Apache Spark ‐ EMR Amazon EKS on per accelerare Spark EC2 utilizzando tipi di istanze di unità GPU di elaborazione grafica (). Per utilizzare l'immagine Spark con RAPIDS Accelerator, specifica l'etichetta di rilascio come emr-6.9.0-. spark-rapids-latest Per maggiori informazioni, consulta la pagina della documentazione.

  • Connettore Spark-Redshift ‐ L'integrazione Amazon Redshift per Apache Spark è inclusa nelle versioni di Amazon 6.9.0 e successive. EMR In precedenza uno strumento open source, l'integrazione nativa è un connettore Spark che è possibile utilizzare per creare applicazioni Apache Spark in grado di leggere e scrivere dati in Amazon Redshift e Amazon Redshift Serverless. Per ulteriori informazioni, consulta Utilizzo dell'integrazione di Amazon Redshift per Apache Spark su Amazon su EMR EKS.

  • Delta Lake: Delta Lake è un formato di archiviazione open source che consente di creare data lake con coerenza transazionale, definizione coerente di set di dati, modifiche all'evoluzione dello schema e supporto per le mutazioni dei dati. Per maggiori informazioni, consulta la sezione Uso di Delta Lake.

  • Modifica PySpark parametri ‐ Gli endpoint interattivi ora supportano la modifica dei parametri Spark associati alle sessioni nello Studio Jupyter Notebook. PySpark EMR Visita PySpark Modificare i parametri della sessione per saperne di più.

Problemi risolti

Problema noto

  • Se utilizzi l'integrazione di Amazon Redshift per Apache Spark e disponi di un'indicazione temporale time, timez, timestamp o timestamptz con una precisione di microsecondi in formato Parquet, il connettore arrotonda i valori temporali al valore in millisecondi più vicino. Come soluzione alternativa, utilizza il parametro unload_s3_format del formato di scaricamento del testo.