Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Amazon EMR sur les EKS versions 6.9.0
Les versions Amazon EMR 6.9.0 suivantes sont disponibles pour Amazon EMR surEKS. Sélectionnez une XXXX version d'emr-6.9.0- spécifique pour afficher plus de détails, tels que la balise d'image du conteneur associée.
-
emr-6.9.0- spark-rapids-latest
-
emr-6.9.0-spark-rapids-20230624
-
emr-6.9.0-spark-rapids-20221108
-
notebook-spark/emr-6.9.0-latest
-
notebook-spark/emr-6.9.0-20230624
-
notebook-spark/emr-6.9.0-20221108
-
notebook-python/emr-6.9.0-latest
-
notebook-python/emr-6.9.0-20230624
-
notebook-python/emr-6.9.0-20221108
Notes de mise à jour pour Amazon EMR 6.9.0
-
Applications prises en charge ‐ AWS SDK for Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.
-
Composants pris en charge :
aws-sagemaker-spark-sdk
,emr-ddb
,emr-goodies
,emr-s3-select
,emrfs
,hadoop-client
,hudi
,hudi-spark
,iceberg
,spark-kubernetes
. -
Classifications de configuration prises en charge :
À utiliser avec StartJobRunet CreateManagedEndpointAPIs:
Classifications Descriptions core-site
Modifiez les valeurs dans le fichier core-site.xml de Hadoop.
emrfs-site
Modifiez EMRFS les paramètres.
spark-metrics
Modifiez les valeurs dans le fichier metrics.properties de Spark.
spark-defaults
Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.
spark-env
Modifiez les valeurs dans l'environnement Spark.
spark-hive-site
Modifiez les valeurs dans le fichier hive-site.xml de Spark.
spark-log4j
Modifiez les valeurs dans le fichier log4j.properties de Spark.
À utiliser spécifiquement avec CreateManagedEndpointAPIs:
Classifications Descriptions jeg-config
Modifiez les valeurs dans le fichier
jupyter_enterprise_gateway_config.py
Jupyter Enterprise Gateway.jupyter-kernel-overrides
Modifiez la valeur de l'image du noyau dans le fichier Jupyter Kernel Spec.
Les classifications de configuration vous permettent de personnaliser les applications. Ils correspondent souvent à un XML fichier de configuration de l'application, tel que
spark-hive-site.xml
. Pour plus d'informations, consultez la rubrique Configuration des applications.
Fonctionnalités notables
-
Nvidia RAPIDS Accelerator pour Apache Spark ‐ Amazon EMR EKS va accélérer Spark à l'aide de types d'instances d'unités de traitement EC2 graphique (GPU). Pour utiliser l'image Spark avec RAPIDS Accelerator, spécifiez l'étiquette de version emr-6.9.0-. spark-rapids-latest Consultez la page de documentation pour en savoir plus.
-
Connecteur Spark-Redshift ‐ L'intégration Amazon Redshift pour Apache Spark est incluse dans les versions 6.9.0 et ultérieures d'AmazonEMR. Auparavant un outil open-source, l'intégration native est un connecteur Spark que vous pouvez utiliser pour créer des applications Apache Spark capables de lire et d'écrire des données sur Amazon Redshift et Amazon Redshift sans serveur. Pour de plus amples informations, veuillez consulter Utilisation de l'intégration Amazon Redshift pour Apache Spark sur Amazon sur EMR EKS.
-
Delta Lake – Delta Lake
est un format de stockage open-source qui permet de créer des lacs de données avec une cohérence transactionnelle, une définition cohérente des jeux de données, des changements dans l'évolution des schémas et la prise en charge des mutations de données. Consultez Utilisation de Delta Lake pour en savoir plus. -
Modifier PySpark les paramètres ‐ Les points de terminaison interactifs prennent désormais en charge la modification des paramètres Spark associés aux PySpark sessions dans le bloc-notes EMR Studio Jupyter. Consultez Modifier les paramètres de PySpark session pour en savoir plus.
Problèmes résolus
-
Lorsque vous utilisez le connecteur DynamoDB avec Spark on EMR Amazon versions 6.6.0, 6.7.0 et 6.8.0, toutes les lectures de votre table renvoient un résultat vide, même si le split d'entrée fait référence à des données non vides. La EMR version 6.9.0 d'Amazon résout ce problème.
-
Amazon EMR EKS 6.8.0 ne remplit pas correctement le hachage de build dans les métadonnées des fichiers Parquet générés à l'aide d'Apache Spark.
Ce problème peut entraîner l'échec des outils qui analysent la chaîne de version des métadonnées à partir des fichiers Parquet générés par Amazon EMR sur EKS 6.8.0.
Problème connu
-
Si vous utilisez l'intégration Amazon Redshift à Apache Spark et que vous disposez d'un champ de type heure, timetz, horodatage ou timestamptz avec une précision de l'ordre de la microseconde au format Parquet, le connecteur arrondit les valeurs temporelles à la milliseconde la plus proche. Pour contourner le problème, utilisez le paramètre
unload_s3_format
de format de déchargement du texte.