Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation de Supprimer les doublons
La transformation Supprimer les doublons supprime des lignes de votre source de données en vous proposant deux options. Vous pouvez choisir de supprimer les lignes dupliquées qui sont complètement identiques, ou vous pouvez choisir les champs à faire correspondre et ne supprimer que les lignes basées sur ces champs.
Par exemple, dans ce jeu de données, vous avez des lignes dupliquées où toutes les valeurs de certaines lignes sont exactement identiques à celles d'une autre ligne, et certaines valeurs des lignes sont identiques ou différentes.
Rangée | Nom | Age | État | Remarque | |
---|---|---|---|---|---|
1 | Joy | joy@gmail | 33 | NY | |
2 | Tim | tim@gmail | 45 | OH | |
3 | Rose | rose@gmail | 23 | NJ | |
4 | Tim | tim@gmail | 42 | OH | |
5 | Rose | rose@gmail | 23 | NJ | |
6 | Tim | tim@gmail | 42 | OH | Il s'agit d'une ligne dupliquée qui correspond parfaitement à toutes les valeurs de la ligne n° 4 |
7 | Rose | rose@gmail | 23 | NJ | Il s'agit d'une ligne dupliquée qui correspond parfaitement à toutes les valeurs de la ligne n° 5 |
Si vous choisissez de faire correspondre des lignes entières, les lignes 6 et 7 seront supprimées du jeu de données. Le jeu de données est désormais le suivant :
Rangée | Nom | Age | État | |
---|---|---|---|---|
1 | Joy | joy@gmail | 33 | NY |
2 | Tim | tim@gmail | 45 | OH |
3 | Rose | rose@gmail | 23 | NJ |
4 | Tim | tim@gmail | 42 | OH |
5 | Rose | rose@gmail | 23 | NJ |
Si vous avez choisi de spécifier des clés, vous pouvez choisir de supprimer les lignes correspondant à « name » et « email » Cela vous permet de mieux contrôler ce qu'est une « ligne dupliquée » pour votre jeu de données. En spécifiant « name » et « email », le jeu de données est désormais le suivant :
Rangée | Nom | Age | État | |
---|---|---|---|---|
1 | Joy | joy@gmail | 33 | NY |
2 | Tim | tim@gmail | 45 | OH |
3 | Rose | rose@gmail | 23 | NJ |
Quelques points à garder à l'esprit :
-
Pour que les lignes soient reconnues comme des doublons, les valeurs sont sensibles à la casse. Toutes les valeurs des lignes doivent avoir la même casse. Cela s'applique à l'une ou l'autre des options que vous choisissez (Faire correspondre des lignes entières ou Spécifier des clés).
-
Toutes les valeurs sont lues sous forme de chaînes.
-
La transformation Supprimer les doublons utilise la commande Spark dropDuplicates.
-
Lorsque vous utilisez la transformation Supprimer les doublons, la première ligne est conservée et les autres lignes sont supprimées.
-
La transformation Supprimer les doublons ne modifie pas le schéma de la trame de données. Si vous choisissez de spécifier des clés, tous les champs sont conservés dans la trame de données obtenue.