Ejemplo Salida — métodos —__call__apply name describeArgs describeReturn describeTransform describeErrors describe

Clase FlagDuplicatesInColumn

La transformación FlagDuplicatesInColumn devuelve una nueva columna con un valor específico en cada fila que indica si el valor de la columna de origen de esa fila coincide con un valor en una fila anterior de la columna de origen. Cuando se encuentran coincidencias, se marcan como duplicadas. La aparición inicial no está marcada porque no coincide con una fila anterior.

Ejemplo


from pyspark.context import SparkContext
from pyspark.sql import SparkSession      
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data")

try:
    df_output = column.FlagDuplicatesInColumn.apply(
        data_frame=datasource1,
        spark_context=sc,
        source_column="city",
        target_column="flag_col",
        true_string="True",
        false_string="False"
    )
except:
    print("Unexpected Error happened ")
    raise

Salida

La transformación FlagDuplicatesInColumn agregará una nueva columna `flag_col` al elemento DataFrame `df_output`. Esta columna contendrá un valor de cadena que indicará si la fila correspondiente tiene un valor duplicado en la columna `city` o no. Si una fila tiene un valor `city` duplicado, `flag_col` contendrá el valor `true_string` como “True”. Si una fila tiene un único valor `city`, `flag_col` contendrá el valor `true_string` como “True”.

El elemento DataFrame `df_output` resultante contendrá todas las columnas del elemento DataFrame original `datasource1`, más la columna adicional `flag_col` que indica valores de `city` duplicados.

call(spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING)

source_column: nombre de la columna de origen.
target_column: nombre de la columna de destino.
true_string: cadena que se insertará en la columna de destino cuando el valor de una columna de origen duplique un valor anterior de esa columna.
false_string: cadena que se insertará en la columna de destino cuando el valor de una columna de origen sea distinto de un valor anterior de esa columna.

apply(cls, *args, **kwargs)

Heredado de GlueTransform apply.

name(cls)

Heredado de GlueTransform name.

describeArgs(cls)

Heredado de GlueTransform describeArgs.

describeReturn(cls)

Heredado de GlueTransform describeReturn.

describeTransform(cls)

Heredado de GlueTransform describeTransform.

describeErrors(cls)

Heredado de GlueTransform describeErrors.

describe(cls)

Heredado de GlueTransform describe.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

UnnestFrame

FormatPhoneNumber