Clase FillMissingValues - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Clase FillMissingValues

La clase FillMissingValues localiza valores nulos y cadenas vacías en un DynamicFrame especificado y utiliza métodos de machine learning, como regresión lineal y bosque aleatorio (random forest), para predecir los valores faltantes. El trabajo de ETL utiliza los valores del conjunto de datos de entrada para formar al modelo de machine learning, que luego predice cuáles deben ser los valores que faltan.

sugerencia

Si utiliza conjuntos de datos progresivos, cada conjunto progresivo se utiliza como datos de formación para el modelo de machine learning, por lo que es posible que los resultados no sean tan precisos.

Para importar:

from awsglueml.transforms import FillMissingValues

Métodos

aplicar (frame, missing_values_column, output_column ="", transformation_ctx ="", info ="", stageThreshold = 0, totalThreshold = 0)

Rellena los valores que faltan de un marco dinámico en una columna especificada y devuelve un nuevo marco con estimaciones en una nueva columna. Para filas sin valores faltantes, el valor de la columna especificada se duplica en la nueva columna.

  • frame: el DynamicFrame en el que rellenar los valores que faltan. Obligatorio.

  • missing_values_column: la columna que contiene valores faltantes (valores null y cadenas vacías). Obligatorio.

  • output_column: el nombre de la nueva columna que contendrá valores estimados para todas las filas cuyo valor faltaba. Opcional; el valor predeterminado es el nombre de missing_values_column con el sufijo "_filled".

  • transformation_ctx: cadena única que se utiliza para identificar la información del estado (opcional).

  • info: cadena que está asociada a errores en la transformación (opcional).

  • stageThreshold: número máximo de errores que se pueden producir en la transformación antes de que se determine que es errónea (opcional, el valor predeterminado es cero).

  • totalThreshold: número máximo de errores que se pueden producir en total antes de que se determine que el proceso es erróneo (opcional, el valor predeterminado es cero).

Devuelve un nuevo DynamicFrame con una columna adicional que contiene estimaciones para filas con valores faltantes y el valor actual para otras filas.