FlagDuplicatesInColumn class
FlagDuplicatesInColumn
変換は、各行に指定された値を持つ新しい列を返します。この列は、行のソース列の値がソース列の前の行の値と一致するかどうかを示します。一致が見つかった場合、重複としてフラグが付けられます。以前の行と一致しないため、最初の出現にはフラグが付けられません。
例
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise
出力
FlagDuplicatesInColumn
変換により、新しい列「flag_col」が「df_output」 DataFrame に追加されます。この列には、対応する行に「city」列に重複する値があるかどうかを示す文字列値が含まれます。行に重複する「city」値がある場合、「flag_col」には「true_string」値『True』が含まれます。行に一意の「city」値がある場合、「flag_col」には「false_string」値『False』が含まれます。
結果の「df_output」 DataFrame には、元の「datasource1」 DataFrame のすべての列に加えて、重複する「city」値を示す追加の「flag_col」列が含まれます。
方法
__call__(spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING)
FlagDuplicatesInColumn
変換は、各行に指定された値を持つ新しい列を返します。この列は、行のソース列の値がソース列の前の行の値と一致するかどうかを示します。一致が見つかった場合、重複としてフラグが付けられます。以前の行と一致しないため、最初の出現にはフラグが付けられません。
-
source_column
– ソース列の名前。 -
target_column
– ターゲット列の名前。 -
true_string
– ソース列の値がその列の以前の値と重複する場合に、ターゲット列に挿入される文字列。 -
false_string
– ソース列の値がその列の以前の値と異なる場合に、ターゲット列に挿入される文字列。
apply(cls, *args, **kwargs)
継承元は GlueTransform
apply。
name(cls)
継承元は GlueTransform
name。
describeArgs(cls)
継承元は GlueTransform
describeArgs。
describeReturn(cls)
継承元は GlueTransform
describeReturn。
describeTransform(cls)
継承元は GlueTransform
describeTransform。
describeErrors(cls)
継承元は GlueTransform
describeErrors。
describe(cls)
継承元は GlueTransform
説明。