Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Amazon EMR sur les EKS versions 6.8.0
Les versions Amazon EMR 6.8.0 suivantes sont disponibles pour Amazon EMR surEKS. Sélectionnez une XXXX version d'emr-6.8.0- spécifique pour afficher plus de détails, tels que la balise d'image du conteneur associée.
Notes de mise à jour pour Amazon EMR 6.8.0
-
Applications prises en charge ‐ AWS SDK for Java 1.12.170, Spark 3.3.0-amzn-0, Hudi 0.11.1-amzn-0, Iceberg 0.14.0-amzn-0.
-
Composants pris en charge :
aws-sagemaker-spark-sdk
,emr-ddb
,emr-goodies
,emr-s3-select
,emrfs
,hadoop-client
,hudi
,hudi-spark
,iceberg
,spark-kubernetes
. -
Classifications de configuration prises en charge :
Classifications Descriptions core-site
Modifiez les valeurs dans le fichier core-site.xml de Hadoop.
emrfs-site
Modifiez EMRFS les paramètres.
spark-metrics
Modifiez les valeurs dans le fichier metrics.properties de Spark.
spark-defaults
Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.
spark-env
Modifiez les valeurs dans l'environnement Spark.
spark-hive-site
Modifiez les valeurs dans le fichier hive-site.xml de Spark.
spark-log4j
Modifiez les valeurs dans le fichier log4j.properties de Spark.
Les classifications de configuration vous permettent de personnaliser les applications. Ils correspondent souvent à un XML fichier de configuration de l'application, tel que
spark-hive-site.xml
. Pour plus d'informations, consultez la rubrique Configuration des applications.
Fonctionnalités notables
-
Spark3.3.0 ‐ Amazon EMR sur EKS 6.8 inclut Spark 3.3.0, qui prend en charge l'utilisation d'étiquettes de sélecteur de nœuds distinctes pour les pods d'exécuteurs de pilotes Spark. Ces nouvelles étiquettes vous permettent de définir les types de nœuds pour les modules pilote et exécuteur séparément dans le StartJobRun API, sans utiliser de modèles de modules.
-
Propriété du sélecteur de nœud du pilote : spark.kubernetes.driver.node.selector. [labelKey]
-
Propriété du sélecteur de nœud de l'exécuteur : spark.kubernetes.executor.node.selector. [labelKey]
-
-
Amélioration du message d'échec des tâches – Cette version introduit la configuration
spark.stage.extraDetailsOnFetchFailures.enabled
etspark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude
pour suivre les échecs des tâches dus au code de l'utilisateur. Ces informations seront utilisées pour améliorer le message d'échec affiché dans le journal du pilote lorsqu'une étape est interrompue en raison d'un échec de récupération lors du réarrangement.Nom de la propriété Valeur par défaut Signification Depuis la version spark.stage.extraDetailsOnFetchFailures.enabled
false
Si elle est définie sur
true
, cette propriété est utilisée pour améliorer le message d'échec affiché dans le journal du pilote lorsqu'une étape est interrompue en raison d'échecs de récupération lors du réarrangement. Par défaut, les 5 derniers échecs de tâches causés par le code utilisateur sont suivis et le message d'erreur de l'échec est ajouté aux journaux des pilotes.Pour augmenter le nombre d'échecs de tâches avec des exceptions utilisateur à suivre, consultez la configuration
spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude
.emr-6.8
spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude
5
Nombre d'échecs de tâches à suivre par étape et par tentative. Cette propriété est utilisée pour améliorer le message d'échec avec des exceptions utilisateur affiché dans le journal du pilote lorsqu'une étape est interrompue en raison d'échecs de récupération lors du réarrangement.
Cette propriété ne fonctionne que si Config spark.stage. extraDetailsOnFetchFailures.enabled est défini sur true.
emr-6.8
Pour plus d'informations, consultez la documentation de configuration d'Apache Spark
Problème connu
-
Amazon EMR EKS 6.8.0 ne remplit pas correctement le hachage de build dans les métadonnées des fichiers Parquet générés à l'aide d'Apache Spark.
Ce problème peut entraîner l'échec des outils qui analysent la chaîne de version des métadonnées à partir des fichiers Parquet générés par Amazon EMR sur EKS 6.8.0. Les clients qui analysent la chaîne de version à partir des métadonnées Parquet et qui dépendent du hachage du build doivent passer à une autre EMR version d'Amazon et réécrire le fichier.
Problème résolu
-
Interrompre la capacité du noyau pour pySpark les noyaux ‐ En cours, les charges de travail interactives déclenchées par l'exécution de cellules dans un bloc-notes peuvent être arrêtées à l'
Interrupt Kernel
aide de cette fonctionnalité. Un correctif a été introduit afin que cette fonctionnalité fonctionne pour les pySpark noyaux. Ceci est également disponible en open source sur Changes pour gérer les interruptions pour PySpark KubernetesKernel #1115.