Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Joindre des jeux de données
La transformation Join permet de joindre deux jeux de données en un seul. Vous spécifiez les noms de clé dans le schéma de chaque jeu de données à comparer. Le résultat DynamicFrame
contient des lignes où les clés répondent à la condition de jointure. Les lignes de chaque jeu de données qui répondent à la condition de jointure sont combinées en une seule ligne dans le résultat en sortie DynamicFrame
, qui contient toutes les colonnes de l'un ou l'autre des jeux de données.
Pour ajouter un nœud de transformation Join à votre diagramme de tâche
-
Si une seule source de données est disponible, vous devez ajouter un nouveau nœud de source de données au diagramme de tâche.
-
Choisissez l'un des nœuds source pour la jointure. Ouvrez le panneau Ressources, puis choisissez Jointure pour ajouter une nouvelle transformation à votre diagramme de tâches.
-
Sur la page Node properties (Propriétés de nœud) au cours de la tâche, saisissez un nom pour le nœud dans le diagramme de tâche.
-
Dans l'onglet Node properties (Propriétés de nœud), sous l'en-tête Node parents (Parents de nœud), ajoutez un nœud parent de sorte qu'il y ait deux jeux de données fournissant des entrées pour la jointure. Le parent peut être un nœud de source de données ou un nœud de transformation.
Note
Une jointure ne peut avoir que deux nœuds parents.
-
Choisissez l'onglet Transformation.
Si vous voyez un message indiquant qu'il y a des noms de clés en conflit, vous pouvez :
-
Choisissez Resolve it pour ajouter automatiquement un nœud de ApplyMappingtransformation à votre diagramme de tâches. Le ApplyMapping nœud ajoute un préfixe à toutes les clés de l'ensemble de données portant le même nom qu'une clé de l'autre ensemble de données. Par exemple, si vous utilisez la valeur par défaut
right
, toutes les clés du jeu de données de droite ayant le même nom qu'une clé dans le jeu de données de gauche seront renommées en(right)key name
. -
Ajouter manuellement un nœud de transformation plus tôt dans le diagramme de tâches pour supprimer ou renommer les clés en conflit.
-
-
Choisir le type de jointure dans la liste Join type (Type de jointure).
-
Inner join (Jointure interne ou intérieure) : renvoie une ligne contenant des colonnes des deux jeux de données pour chaque correspondance en fonction de la condition de jointure. Les lignes qui ne satisfont pas à la condition de jointure ne sont pas renvoyées.
-
Left join (Jointure gauche) : toutes les lignes du jeu de données de gauche et seules les lignes du jeu de données de droite qui satisfont à la condition de jointure.
-
Right join (Joindre à droite) : toutes les lignes du jeu de données de droite et uniquement les lignes du jeu de données de gauche qui satisfont à la condition de jointure.
-
Outer join (Jointure externe ou extérieure) : toutes les lignes des deux jeux de données.
-
Left semi join (Semi-jointure gauche) : toutes les lignes du jeu de données de gauche qui ont une correspondance dans le jeu de données de droite en fonction de la condition de jointure.
-
Left anti join (Anti-jointure gauche) : toutes les lignes du jeu de données de gauche qui n'ont pas de correspondance dans le jeu de données de droite en fonction de la condition de jointure.
-
-
Sur l'onglet Transformation, sous l'en-tête Join conditions (Conditions de jointure), choisissez Add condition (Ajouter une condition). Choisissez une clé de propriété dans chaque jeu de données à comparer. Les clés de propriété sur le côté gauche de l'opérateur de comparaison sont appelées le jeu de données gauche et les clés de propriété à droite sont appelées le jeu de données de droite.
Pour des conditions de jointure plus complexes, vous pouvez ajouter des clés correspondantes supplémentaires en sélectionnant Add condition (Ajouter une condition) plus d'une fois. Si vous ajoutez accidentellement une condition, vous pouvez choisir l'icône de suppression (
) pour la supprimer.
(Facultatif) Après avoir configuré les propriétés du nœud de transformation, vous pouvez afficher le schéma modifié pour vos données en sélectionnant l'onglet Output Schema (Schéma de sortie) dans le volet de détails du nœud. La première fois que vous choisissez cet onglet pour un nœud de votre tâche, vous êtes invité à fournir un rôle IAM pour accéder aux données. Si vous n'avez pas spécifié de rôle IAM dans le Job détails (Détails de la tâche), vous y êtes invité à ce stade.
(Facultatif) Après avoir configuré les propriétés du nœud et les propriétés de transformation, vous pouvez prévisualiser le jeu de données modifié en sélectionnant l'onglet Prévisualisation des données dans le volet de détails du nœud. La première fois que vous choisissez cet onglet pour un nœud de votre tâche, vous êtes invité à fournir un rôle IAM pour accéder aux données. Il y a un coût associé à l'utilisation de cette fonctionnalité, et la facturation commence dès que vous fournissez le rôle IAM.
Pour un exemple de schéma de sortie de jointure, considérez une jointure entre deux jeux de données avec les clés de propriété suivantes :
Left: {id, dept, hire_date, salary, employment_status} Right: {id, first_name, last_name, hire_date, title}
La jointure est configurée pour correspondre aux clés id
et hire_date
en utilisant l'opérateur de comparaison =
.
Parce que les deux jeux de données contiennent les clés id
et hire_date
, vous avez choisi Resolve it (Résoudre les problèmes) pour ajouter automatiquement le préfixe right
aux clés du jeu de données approprié.
Les clés dans le schéma de sortie seraient :
{id, dept, hire_date, salary, employment_status, (right)id, first_name, last_name, (right)hire_date, title}