FillWithMode class - AWS Glue

FillWithMode class

FillWithMode 変換は、指定した電話番号形式に従って列をフォーマットします。値の一部が同じ場合、タイブレーカーロジックを指定することもできます。例えば、次の値を考えてみます: 1 2 2 3 3 4

MINIMUM の modeType の場合、FillWithMode はモード値として 2 を返します。modeType が MAXIMUM の場合、モードは 3 です。AVERAGE の場合、モードは 2.5 です。

from awsglue.context import * from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (1055.123, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FillWithMode.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1", mode_type="MAXIMUM" ) df_output.show() except: print("Unexpected Error happened ") raise

出力

コードの出力は次のようになります。

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 1055.123| 13.12| | 1055.123| 13.12| | 13.12| 13.12| | 1055.123| 13.12| +---------------+---------------+ ```

「awsglue.data_quality」モジュールからの FillWithMode 変換は、「input_df」DataFrame に適用されます。これは、source_column_1 列の「null」値を、その列の非 null 値からの最大値 (「mode_type="MAXIMUM"」) に置き換えます。

この場合、source_column_1 列の最大値は「1055.123」です。したがって、source_column_1 の「null」値は、出力 DataFrame の「df_output」で「1055.123」に置き換えられます。

方法

__call__(spark_context、data_frame、source_column、mode_type)

FillWithMode 変換は、列内の文字列のケースをフォーマットします。

  • source_column - 既存の列の名前。

  • mode_type – データ内のタイ値を解決する方法。この値は、MINIMUMNONEAVERAGE、または MAXIMUM のいずれかである必要があります。

apply(cls, *args, **kwargs)

継承元は GlueTransform apply

name(cls)

継承元は GlueTransform name

describeArgs(cls)

継承元は GlueTransform describeArgs

describeReturn(cls)

継承元は GlueTransform describeReturn

describeTransform(cls)

継承元は GlueTransform describeTransform

describeErrors(cls)

継承元は GlueTransform describeErrors

describe(cls)

継承元は GlueTransform 説明