FlagDuplicateRows
변환은 각 행에 지정된 값이 있는 새 열을 반환합니다. 이 열은 해당 행이 데이터세트의 이전 행과 정확히 일치하는지 여부를 나타냅니다. 일치 항목이 발견되면 중복으로 플래그가 지정됩니다. 초기 발생은 이전 행과 일치하지 않으므로 플래그가 지정되지 않습니다.
예
from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *
sc = SparkContext()
spark = SparkSession(sc)
input_df = spark.createDataFrame(
[
(105.111, 13.12),
(13.12, 13.12),
(None, 13.12),
(13.12, 13.12),
(None, 13.12),
],
["source_column_1", "source_column_2"],
)
try:
df_output = data_quality.FlagDuplicateRows.apply(
data_frame=input_df,
spark_context=sc,
target_column="flag_row",
true_string="True",
false_string="False",
target_index=1
)
except:
print("Unexpected Error happened ")
raise
출력
출력은 source_column_1
열을 기반으로 행의 중복 여부를 나타내는 추가 열 flag_row
를 포함하는 PySpark DataFrame입니다. 결과 `df_output` DataFrame에는 다음 행이 포함됩니다.
```
+---------------+---------------+--------+
|source_column_1|source_column_2|flag_row|
+---------------+---------------+--------+
| 105.111| 13.12| False|
| 13.12| 13.12| True|
| null| 13.12| True|
| 13.12| 13.12| True|
| null| 13.12| True|
+---------------+---------------+--------+
```
flag_row
열은 행이 중복인지 여부를 나타냅니다. `true_string`은 'True'로 설정되고 `false_string`은 'False'로 설정됩니다. `target_index`는 1로 설정됩니다. 즉, 출력 DataFrame의 두 번째 위치(인덱스 1)에 flag_row
열이 삽입됩니다.
메서드
__call__(spark_context, data_frame, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING, target_index=None)
FlagDuplicateRows
변환은 각 행에 지정된 값이 있는 새 열을 반환합니다. 이 열은 해당 행이 데이터세트의 이전 행과 정확히 일치하는지 여부를 나타냅니다. 일치 항목이 발견되면 중복으로 플래그가 지정됩니다. 초기 발생은 이전 행과 일치하지 않으므로 플래그가 지정되지 않습니다.
-
true_string
- 행이 이전 행과 일치하는 경우 삽입할 값. -
false_string
- 행이 고유할 경우 삽입할 값. -
target_column
- 데이터세트에 삽입된 새 열의 이름.
apply(cls, *args, **kwargs)
GlueTransform
apply에서 상속됩니다.
name(cls)
GlueTransform
name에서 상속됩니다.
describeArgs(cls)
GlueTransform
describeArgs에서 상속됩니다.
describeReturn(cls)
GlueTransform
describeReturn에서 상속됩니다.
describeTransform(cls)
GlueTransform
describeTransform에서 상속됩니다.
describeErrors(cls)
GlueTransform
describeErrors에서 상속됩니다.
describe(cls)
GlueTransform
describe에서 상속됩니다.