Utilisation de Supprimer les doublons

La transformation Supprimer les doublons supprime des lignes de votre source de données en vous proposant deux options. Vous pouvez choisir de supprimer les lignes dupliquées qui sont complètement identiques, ou vous pouvez choisir les champs à faire correspondre et ne supprimer que les lignes basées sur ces champs.

Par exemple, dans ce jeu de données, vous avez des lignes dupliquées où toutes les valeurs de certaines lignes sont exactement identiques à celles d'une autre ligne, et certaines valeurs des lignes sont identiques ou différentes.

Rangée	Nom	E-mail	Age	État	Remarque
1	Joy	joy@gmail	33	NY
2	Tim	tim@gmail	45	OH
3	Rose	rose@gmail	23	NJ
4	Tim	tim@gmail	42	OH
5	Rose	rose@gmail	23	NJ
6	Tim	tim@gmail	42	OH	Il s'agit d'une ligne dupliquée qui correspond parfaitement à toutes les valeurs de la ligne n° 4
7	Rose	rose@gmail	23	NJ	Il s'agit d'une ligne dupliquée qui correspond parfaitement à toutes les valeurs de la ligne n° 5

Si vous choisissez de faire correspondre des lignes entières, les lignes 6 et 7 seront supprimées du jeu de données. Le jeu de données est désormais le suivant :

Rangée	Nom	E-mail	Age	État
1	Joy	joy@gmail	33	NY
2	Tim	tim@gmail	45	OH
3	Rose	rose@gmail	23	NJ
4	Tim	tim@gmail	42	OH
5	Rose	rose@gmail	23	NJ

Si vous avez choisi de spécifier des clés, vous pouvez choisir de supprimer les lignes correspondant à « name » et « email » Cela vous permet de mieux contrôler ce qu'est une « ligne dupliquée » pour votre jeu de données. En spécifiant « name » et « email », le jeu de données est désormais le suivant :

Rangée	Nom	E-mail	Age	État
1	Joy	joy@gmail	33	NY
2	Tim	tim@gmail	45	OH
3	Rose	rose@gmail	23	NJ

Quelques points à garder à l'esprit :

Pour que les lignes soient reconnues comme des doublons, les valeurs sont sensibles à la casse. Toutes les valeurs des lignes doivent avoir la même casse. Cela s'applique à l'une ou l'autre des options que vous choisissez (Faire correspondre des lignes entières ou Spécifier des clés).
Toutes les valeurs sont lues sous forme de chaînes.
La transformation Supprimer les doublons utilise la commande Spark dropDuplicates.
Lorsque vous utilisez la transformation Supprimer les doublons, la première ligne est conservée et les autres lignes sont supprimées.
La transformation Supprimer les doublons ne modifie pas le schéma de la trame de données. Si vous choisissez de spécifier des clés, tous les champs sont conservés dans la trame de données obtenue.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utilisation de Modifier le schéma pour remapper les clés de propriétés de données

Utiliser SelectFields pour supprimer la plupart des clés de propriété de données