Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
La transformation Traitement de l'équilibre automatique redistribue les données entre les travailleurs pour de meilleures performances. Cela est utile dans les cas où les données sont déséquilibrées ou lorsque la source ne permet pas un traitement parallèle suffisant. Cette situation est fréquente lorsque la source est compressée ou qu'il s'agit de JDBC. La redistribution des données a un coût de performance modeste, de sorte que l'optimisation ne compense pas toujours cet effort si les données étaient déjà correctement équilibrées. Ci-dessous, la transformation utilise la répartition Apache Spark pour réaffecter les données de manière aléatoire entre un certain nombre de partitions optimales pour la capacité du cluster. Pour les utilisateurs avancés, il est possible de saisir un certain nombre de partitions manuellement. En outre, il peut être utilisé pour optimiser l'écriture des tables partitionnées en réorganisant les données en fonction des colonnes spécifiées. Cela permet d'obtenir des fichiers de sortie plus consolidés.
-
Ouvrez le panneau Ressources, puis choisissez Traitement de l'équilibre automatique pour ajouter une nouvelle transformation à votre diagramme de tâches. Le nœud sélectionné au moment de l'ajout du nœud sera son parent.
-
(Facultatif) Dans l'onglet Propriétés de nœud, vous pouvez saisir un nom pour le nœud dans le diagramme de tâches. Si aucun parent de nœud n'est déjà sélectionné, choisissez un nœud dans la liste Node parents (Parents de nœud) à utiliser comme source pour la transformation.
-
(Facultatif) Dans l'onglet Transformer, vous pouvez saisir un certain nombre de partitions. En général, il est recommandé de laisser le système décider de cette valeur, mais vous pouvez ajuster le multiplicateur ou saisir une valeur spécifique si vous avez besoin de la contrôler. Si vous souhaitez enregistrer les données partitionnées par colonnes, vous pouvez choisir les mêmes colonnes comme colonnes de répartition. De cette manière, le nombre de fichiers sur chaque partition sera minimisé et il n'y aura pas beaucoup de fichiers par partition, ce qui entraverait les performances des outils qui interrogent ces données.