Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
FlagDuplicatesInColumn kelas
FlagDuplicatesInColumn
Transformasi mengembalikan kolom baru dengan nilai tertentu di setiap baris yang menunjukkan apakah nilai di kolom sumber baris cocok dengan nilai di baris sebelumnya dari kolom sumber. Ketika kecocokan ditemukan, mereka ditandai sebagai duplikat. Kejadian awal tidak ditandai, karena tidak cocok dengan baris sebelumnya.
Contoh
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise
Output
FlagDuplicatesInColumn
Transformasi akan menambahkan kolom baru `flag_col` ke `df_output`. DataFrame Kolom ini akan berisi nilai string yang menunjukkan apakah baris yang sesuai memiliki nilai duplikat di kolom `kota` atau tidak. Jika sebuah baris memiliki nilai duplikat `city`, `flag_col` akan berisi nilai `true_string` “True”. Jika sebuah baris memiliki nilai `city` yang unik, `flag_col` akan berisi nilai `false_string` “False”.
Hasil `df_output` DataFrame akan berisi semua kolom dari `datasource1` asli, ditambah kolom `flag_col` tambahan yang menunjukkan nilai duplikat DataFrame `city`.
Metode
__call__ (spark_context, data_frame, source_column, target_column, true_string=default_true_string, false_string=default_false_string)
FlagDuplicatesInColumn
Transformasi mengembalikan kolom baru dengan nilai tertentu di setiap baris yang menunjukkan apakah nilai di kolom sumber baris cocok dengan nilai di baris sebelumnya dari kolom sumber. Ketika kecocokan ditemukan, mereka ditandai sebagai duplikat. Kejadian awal tidak ditandai, karena tidak cocok dengan baris sebelumnya.
-
source_column
— Nama kolom sumber. -
target_column
— Nama kolom target. -
true_string
— String yang akan dimasukkan dalam kolom target ketika nilai kolom sumber menduplikasi nilai sebelumnya di kolom itu. -
false_string
— String yang akan dimasukkan dalam kolom target ketika nilai kolom sumber berbeda dari nilai sebelumnya di kolom itu.
apply(cls, *args, **kwargs)
Warisan dari GlueTransform
apply.
name(cls)
Warisan dari GlueTransform
nama.
describeArgs(cls)
Warisan dari GlueTransform
describeArgs.
describeReturn(cls)
Warisan dari GlueTransform
describeReturn.
describeTransform(cls)
Warisan dari GlueTransform
describeTransform.
describeErrors(cls)
Warisan dari GlueTransform
describeErrors.
describe(cls)
Warisan dari GlueTransform
describe.