Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
FlagDuplicateRows classe
La FlagDuplicateRows
transformation renvoie une nouvelle colonne avec une valeur spécifiée dans chaque ligne qui indique si cette ligne correspond exactement à une ligne précédente de l'ensemble de données. Lorsque des correspondances sont trouvées, elles sont signalées comme des doublons. L'occurrence initiale n'est pas signalée, car elle ne correspond pas à une ligne précédente.
Exemple
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise
Sortie
La sortie sera une PySpark DataFrame avec une colonne supplémentaire flag_row
qui indique si une ligne est un doublon ou non, en fonction de la source_column_1
colonne. Le fichier `df_output` qui en résultera DataFrame contiendra les lignes suivantes :
``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ```
La flag_row
colonne indique si une ligne est un doublon ou non. Le `true_string` est défini sur « True », et le `false_string` est défini sur « False ». Le `target_index` est défini sur 1, ce qui signifie que la flag_row
colonne sera insérée à la deuxième position (index 1) dans la sortie. DataFrame
Méthodes
__call__ (spark_context, data_frame, target_column, true_string=DEFAULT_TRUE_STRING, FALSE_STRING=DEFAULT_FALSE_STRING, TARGET_INDEX=NONE)
La FlagDuplicateRows
transformation renvoie une nouvelle colonne avec une valeur spécifiée dans chaque ligne qui indique si cette ligne correspond exactement à une ligne précédente de l'ensemble de données. Lorsque des correspondances sont trouvées, elles sont signalées comme des doublons. L'occurrence initiale n'est pas signalée, car elle ne correspond pas à une ligne précédente.
-
true_string
— Valeur à insérer si la ligne correspond à une ligne précédente. -
false_string
— Valeur à insérer si la ligne est unique. -
target_column
— Nom de la nouvelle colonne insérée dans le jeu de données.
apply(cls, *args, **kwargs)
Hérité de GlueTransform
s'appliquent.
name(cls)
Hérité de GlueTransform
name.
describeArgs(cls)
Hérité de GlueTransform
describeArgs.
describeReturn(cls)
Hérité de GlueTransform
describeReturn.
describeTransform(cls)
Hérité de GlueTransform
describeTransform.
describeErrors(cls)
Hérité de GlueTransform
describeErrors.
describe(cls)
Hérité de GlueTransform
describe.