Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Activation du validateur optimisé Hive EMRFS S3
Le Hive EMRFS S3 Optimized Committer est une méthode alternative permettant à EMR Hive d'écrire des fichiers pour des requêtes d'insertion lors de l'utilisation d'EMRFS. Le Committer élimine les opérations de liste et de renommage effectuées sur Amazon S3 et améliore les performances de l'application. La fonctionnalité est disponible à partir de EMR 5.34 et EMR 6.5.
Activation du contributeur
Si vous souhaitez activer EMR Hive pour utiliser HiveEMRFSOptimizedCommitter
pour valider les données par défaut pour toutes les tables gérées et externes par Hive, utilisez la configuration hive-site
suivante dans les clusters EMR 6.5.0 ou EMR 5.34.0.
[
{
"classification": "hive-site",
"properties": {
"hive.blobstore.use.output-committer": "true"
}
}
]
Note
N'activez pas cette fonction lorsque hive.exec.parallel
est défini sur true
.
Limites
Les restrictions de base suivantes s’appliquent aux balises :
-
L'activation de Hive pour fusionner automatiquement de petits fichiers n'est pas prise en charge. La logique de validation Hive par défaut sera utilisée même lorsque le validateur optimisé est activé.
-
Les tables Hive ACID ne sont pas prises en charge. La logique de validation Hive par défaut sera utilisée même lorsque le validateur optimisé est activé.
-
La nomenclature des noms de fichiers pour les fichiers écrits est passée de Hive
<task_id>_<attempt_id>_<copy_n>
à<task_id>_<attempt_id>_<copy_n>_<query_id>
. Par exemple, un fichier nommés3://warehouse/table/partition=1/000000_0
sera remplacé pars3://warehouse/table/partition=1/000000_0-hadoop_20210714130459_ba7c23ec-5695-4947-9d98-8a40ef759222-1
. Lequery_id
ici est une combinaison du nom d'utilisateur, de l'horodatage et de l'UUID. -
Lorsque des partitions personnalisées se trouvent sur des systèmes de fichiers différents (HDFS, S3), cette fonctionnalité est automatiquement désactivée. La logique de validation Hive par défaut sera utilisée lorsqu'elle sera activée.