Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Die FlagDuplicateRows
Transformation gibt eine neue Spalte mit einem bestimmten Wert in jeder Zeile zurück, der angibt, ob diese Zeile exakt mit einer früheren Zeile in der Datenmenge übereinstimmt. Wenn Übereinstimmungen gefunden werden, werden sie als Duplikate gekennzeichnet. Das ursprüngliche Vorkommen wird nicht gekennzeichnet, da es nicht mit einer früheren Zeile übereinstimmt.
Beispiel
from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *
sc = SparkContext()
spark = SparkSession(sc)
input_df = spark.createDataFrame(
[
(105.111, 13.12),
(13.12, 13.12),
(None, 13.12),
(13.12, 13.12),
(None, 13.12),
],
["source_column_1", "source_column_2"],
)
try:
df_output = data_quality.FlagDuplicateRows.apply(
data_frame=input_df,
spark_context=sc,
target_column="flag_row",
true_string="True",
false_string="False",
target_index=1
)
except:
print("Unexpected Error happened ")
raise
Output
Die Ausgabe wird eine PySpark DataFrame mit einer zusätzlichen Spalte sein, die anhand der Spalte flag_row
angibt, ob es sich bei einer Zeile um ein Duplikat handelt oder nicht. source_column_1
Das resultierende `df_output` DataFrame wird die folgenden Zeilen enthalten:
```
+---------------+---------------+--------+
|source_column_1|source_column_2|flag_row|
+---------------+---------------+--------+
| 105.111| 13.12| False|
| 13.12| 13.12| True|
| null| 13.12| True|
| 13.12| 13.12| True|
| null| 13.12| True|
+---------------+---------------+--------+
```
Die flag_row
Spalte gibt an, ob es sich bei einer Zeile um ein Duplikat handelt oder nicht. Die `true_string` ist auf „True“ gesetzt und die `false_string` ist auf „False“ gesetzt. Der `target_index` ist auf 1 gesetzt, was bedeutet, dass die flag_row
Spalte an der zweiten Position (Index 1) in der Ausgabe eingefügt wird. DataFrame
Methoden
__call__ (spark_context, data_frame, target_column, true_string=DEFAULT_TRUE_STRING, FALSE_STRING=DEFAULT_FALSE_STRING, TARGET_INDEX=NONE)
Die Transformation FlagDuplicateRows
gibt eine neue Spalte mit einem bestimmten Wert in jeder Zeile zurück, der angibt, ob diese Zeile exakt mit einer früheren Zeile im Datensatz übereinstimmt. Wenn Übereinstimmungen gefunden werden, werden sie als Duplikate gekennzeichnet. Das ursprüngliche Vorkommen wird nicht gekennzeichnet, da es nicht mit einer früheren Zeile übereinstimmt.
-
true_string
— Wert, der eingefügt werden soll, wenn die Zeile mit einer früheren Zeile übereinstimmt. -
false_string
— Wert, der eingefügt werden soll, wenn die Zeile eindeutig ist. -
target_column
— Name der neuen Spalte, die in den Datensatz eingefügt wird.
apply(cls, *args, **kwargs)
Geerbt von GlueTransform
apply.
name(cls)
Geerbt von GlueTransform
Name.
describeArgs(cls)
Geerbt von GlueTransform
describeArgs.
describeReturn(cls)
Geerbt von GlueTransform
describeReturn.
describeTransform(cls)
Geerbt von GlueTransform
describeTransform.
describeErrors(cls)
Geerbt von GlueTransform
describeErrors.
describe(cls)
Geerbt von GlueTransform
Beschreiben.