Clase FlagDuplicatesInColumn - AWS Glue

Clase FlagDuplicatesInColumn

La transformación FlagDuplicatesInColumn devuelve una nueva columna con un valor específico en cada fila que indica si el valor de la columna de origen de esa fila coincide con un valor en una fila anterior de la columna de origen. Cuando se encuentran coincidencias, se marcan como duplicadas. La aparición inicial no está marcada porque no coincide con una fila anterior.

Ejemplo

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise

Salida

La transformación FlagDuplicatesInColumn agregará una nueva columna `flag_col` al elemento DataFrame `df_output`. Esta columna contendrá un valor de cadena que indicará si la fila correspondiente tiene un valor duplicado en la columna `city` o no. Si una fila tiene un valor `city` duplicado, `flag_col` contendrá el valor `true_string` como “True”. Si una fila tiene un único valor `city`, `flag_col` contendrá el valor `true_string` como “True”.

El elemento DataFrame `df_output` resultante contendrá todas las columnas del elemento DataFrame original `datasource1`, más la columna adicional `flag_col` que indica valores de `city` duplicados.

Métodos

__call__(spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING)

La transformación FlagDuplicatesInColumn devuelve una nueva columna con un valor específico en cada fila que indica si el valor de la columna de origen de esa fila coincide con un valor en una fila anterior de la columna de origen. Cuando se encuentran coincidencias, se marcan como duplicadas. La aparición inicial no está marcada porque no coincide con una fila anterior.

  • source_column: nombre de la columna de origen.

  • target_column: nombre de la columna de destino.

  • true_string: cadena que se insertará en la columna de destino cuando el valor de una columna de origen duplique un valor anterior de esa columna.

  • false_string: cadena que se insertará en la columna de destino cuando el valor de una columna de origen sea distinto de un valor anterior de esa columna.

apply(cls, *args, **kwargs)

Heredado de GlueTransform apply.

name(cls)

Heredado de GlueTransform name.

describeArgs(cls)

Heredado de GlueTransform describeArgs.

describeReturn(cls)

Heredado de GlueTransform describeReturn.

describeTransform(cls)

Heredado de GlueTransform describeTransform.

describeErrors(cls)

Heredado de GlueTransform describeErrors.

describe(cls)

Heredado de GlueTransform describe.