Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Amazon nelle EMR versioni EKS 6.9.0
Le seguenti versioni di Amazon EMR 6.9.0 sono disponibili per Amazon EMR su. EKS Seleziona una XXXX versione emr-6.9.0- specifica per visualizzare ulteriori dettagli, come il relativo tag di immagine del contenitore.
-
emr-6.9.0- spark-rapids-latest
-
emr-6.9.0-spark-rapids-20230624
-
emr-6.9.0-spark-rapids-20221108
-
notebook-spark/emr-6.9.0-latest
-
notebook-spark/emr-6.9.0-20230624
-
notebook-spark/emr-6.9.0-20221108
-
notebook-python/emr-6.9.0-latest
-
notebook-python/emr-6.9.0-20230624
-
notebook-python/emr-6.9.0-20221108
Note di versione per Amazon EMR 6.9.0
-
Applicazioni supportate ‐ AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.
-
Componenti supportati:
aws-sagemaker-spark-sdk
,emr-ddb
,emr-goodies
,emr-s3-select
,emrfs
,hadoop-client
,hudi
,hudi-spark
,iceberg
,spark-kubernetes
. -
Classificazioni di configurazione supportate:
StartJobRunDa CreateManagedEndpointAPIsusare con e:
Classificazioni Descrizioni core-site
Modifica i valori nel file core-site.xml di Hadoop.
emrfs-site
Modificare EMRFS le impostazioni.
spark-metrics
Modifica i valori nel file metrics.properties di Spark.
spark-defaults
Modifica i valori nel file spark-defaults.conf di Spark.
spark-env
Modifica i valori nell'ambiente Spark.
spark-hive-site
Modifica i valori nel file hive-site.xml di Spark.
spark-log4j
Modifica i valori nel file log4j.properties di Spark.
Da utilizzare specificamente con CreateManagedEndpointAPIs:
Classificazioni Descrizioni jeg-config
Modifica i valori nel file
jupyter_enterprise_gateway_config.py
Jupyter Enterprise Gateway.jupyter-kernel-overrides
Modifica il valore per l'immagine del kernel nel file Jupyter Kernel Spec.
Le classificazioni di configurazione consentono di personalizzare le applicazioni. Spesso corrispondono a un XML file di configurazione per l'applicazione, ad esempio
spark-hive-site.xml
. Per ulteriori informazioni, consulta la sezione Configurazione delle applicazioni.
Funzionalità significative
-
Nvidia RAPIDS Accelerator for Apache Spark ‐ EMR Amazon EKS on per accelerare Spark EC2 utilizzando tipi di istanze di unità GPU di elaborazione grafica (). Per utilizzare l'immagine Spark con RAPIDS Accelerator, specifica l'etichetta di rilascio come emr-6.9.0-. spark-rapids-latest Per maggiori informazioni, consulta la pagina della documentazione.
-
Connettore Spark-Redshift ‐ L'integrazione Amazon Redshift per Apache Spark è inclusa nelle versioni di Amazon 6.9.0 e successive. EMR In precedenza uno strumento open source, l'integrazione nativa è un connettore Spark che è possibile utilizzare per creare applicazioni Apache Spark in grado di leggere e scrivere dati in Amazon Redshift e Amazon Redshift Serverless. Per ulteriori informazioni, consulta Utilizzo dell'integrazione di Amazon Redshift per Apache Spark su Amazon su EMR EKS.
-
Delta Lake: Delta Lake
è un formato di archiviazione open source che consente di creare data lake con coerenza transazionale, definizione coerente di set di dati, modifiche all'evoluzione dello schema e supporto per le mutazioni dei dati. Per maggiori informazioni, consulta la sezione Uso di Delta Lake. -
Modifica PySpark parametri ‐ Gli endpoint interattivi ora supportano la modifica dei parametri Spark associati alle sessioni nello Studio Jupyter Notebook. PySpark EMR Visita PySpark Modificare i parametri della sessione per saperne di più.
Problemi risolti
-
Quando utilizzi il connettore DynamoDB con Spark nelle versioni di EMR Amazon 6.6.0, 6.7.0 e 6.8.0, tutte le letture dalla tabella restituiscono un risultato vuoto, anche se la suddivisione in input fa riferimento a dati non vuoti. La EMR versione 6.9.0 di Amazon risolve questo problema.
-
Amazon EMR su EKS 6.8.0 compila erroneamente l'hash di build nei metadati dei file Parquet generati con Apache Spark.
Questo problema può causare errori negli strumenti che analizzano la stringa della versione dei metadati dai file Parquet generati da Amazon EMR nella versione EKS 6.8.0.
Problema noto
-
Se utilizzi l'integrazione di Amazon Redshift per Apache Spark e disponi di un'indicazione temporale time, timez, timestamp o timestamptz con una precisione di microsecondi in formato Parquet, il connettore arrotonda i valori temporali al valore in millisecondi più vicino. Come soluzione alternativa, utilizza il parametro
unload_s3_format
del formato di scaricamento del testo.