FlagDuplicatesInColumn class - AWS Glue

FlagDuplicatesInColumn class

FlagDuplicatesInColumn 変換は、各行に指定された値を持つ新しい列を返します。この列は、行のソース列の値がソース列の前の行の値と一致するかどうかを示します。一致が見つかった場合、重複としてフラグが付けられます。以前の行と一致しないため、最初の出現にはフラグが付けられません。

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise

出力

FlagDuplicatesInColumn 変換により、新しい列「flag_col」が「df_output」 DataFrame に追加されます。この列には、対応する行に「city」列に重複する値があるかどうかを示す文字列値が含まれます。行に重複する「city」値がある場合、「flag_col」には「true_string」値『True』が含まれます。行に一意の「city」値がある場合、「flag_col」には「false_string」値『False』が含まれます。

結果の「df_output」 DataFrame には、元の「datasource1」 DataFrame のすべての列に加えて、重複する「city」値を示す追加の「flag_col」列が含まれます。

方法

__call__(spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING)

FlagDuplicatesInColumn 変換は、各行に指定された値を持つ新しい列を返します。この列は、行のソース列の値がソース列の前の行の値と一致するかどうかを示します。一致が見つかった場合、重複としてフラグが付けられます。以前の行と一致しないため、最初の出現にはフラグが付けられません。

  • source_column – ソース列の名前。

  • target_column – ターゲット列の名前。

  • true_string – ソース列の値がその列の以前の値と重複する場合に、ターゲット列に挿入される文字列。

  • false_string – ソース列の値がその列の以前の値と異なる場合に、ターゲット列に挿入される文字列。

apply(cls, *args, **kwargs)

継承元は GlueTransform apply

name(cls)

継承元は GlueTransform name

describeArgs(cls)

継承元は GlueTransform describeArgs

describeReturn(cls)

継承元は GlueTransform describeReturn

describeTransform(cls)

継承元は GlueTransform describeTransform

describeErrors(cls)

継承元は GlueTransform describeErrors

describe(cls)

継承元は GlueTransform 説明