FlagDuplicatesInColumn kelas - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

FlagDuplicatesInColumn kelas

FlagDuplicatesInColumnTransformasi mengembalikan kolom baru dengan nilai tertentu di setiap baris yang menunjukkan apakah nilai di kolom sumber baris cocok dengan nilai di baris sebelumnya dari kolom sumber. Ketika kecocokan ditemukan, mereka ditandai sebagai duplikat. Kejadian awal tidak ditandai, karena tidak cocok dengan baris sebelumnya.

Contoh

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise

Output

FlagDuplicatesInColumnTransformasi akan menambahkan kolom baru `flag_col` ke `df_output`. DataFrame Kolom ini akan berisi nilai string yang menunjukkan apakah baris yang sesuai memiliki nilai duplikat di kolom `kota` atau tidak. Jika sebuah baris memiliki nilai duplikat `city`, `flag_col` akan berisi nilai `true_string` “True”. Jika sebuah baris memiliki nilai `city` yang unik, `flag_col` akan berisi nilai `false_string` “False”.

Hasil `df_output` DataFrame akan berisi semua kolom dari `datasource1` asli, ditambah kolom `flag_col` tambahan yang menunjukkan nilai duplikat DataFrame `city`.

Metode

__call__ (spark_context, data_frame, source_column, target_column, true_string=default_true_string, false_string=default_false_string)

FlagDuplicatesInColumnTransformasi mengembalikan kolom baru dengan nilai tertentu di setiap baris yang menunjukkan apakah nilai di kolom sumber baris cocok dengan nilai di baris sebelumnya dari kolom sumber. Ketika kecocokan ditemukan, mereka ditandai sebagai duplikat. Kejadian awal tidak ditandai, karena tidak cocok dengan baris sebelumnya.

  • source_column— Nama kolom sumber.

  • target_column— Nama kolom target.

  • true_string— String yang akan dimasukkan dalam kolom target ketika nilai kolom sumber menduplikasi nilai sebelumnya di kolom itu.

  • false_string— String yang akan dimasukkan dalam kolom target ketika nilai kolom sumber berbeda dari nilai sebelumnya di kolom itu.

apply(cls, *args, **kwargs)

Warisan dari GlueTransform apply.

name(cls)

Warisan dari GlueTransform nama.

describeArgs(cls)

Warisan dari GlueTransform describeArgs.

describeReturn(cls)

Warisan dari GlueTransform describeReturn.

describeTransform(cls)

Warisan dari GlueTransform describeTransform.

describeErrors(cls)

Warisan dari GlueTransform describeErrors.

describe(cls)

Warisan dari GlueTransform describe.