Classe FillMissingValues - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Classe FillMissingValues

A classe FillMissingValues localiza valores null e strings vazias em um DynamicFrame especificado e usa métodos de machine learning, como regressão linear e floresta aleatória, para prever os valores ausentes. O trabalho de ETL usa os valores no conjunto de dados de entrada para treinar o modelo de machine learning, que então prevê quais devem ser os valores ausentes.

dica

Se você usar conjuntos de dados incrementais, cada conjunto incremental será usado como dados de treinamento para o modelo de machine learning, portanto, os resultados podem não ser tão precisos.

Para importar:

from awsglueml.transforms import FillMissingValues

Métodos

apply(frame, missing_values_column, output_column ="", transformation_ctx ="", info ="", stageThreshold = 0, totalThreshold = 0)

Preenche os valores ausentes de um quadro dinâmico em uma coluna especificada e retorna um novo quadro com estimativas em uma nova coluna. Para linhas sem valores ausentes, o valor da coluna especificada é duplicado para a nova coluna.

  • frame: o DynamicFrame no qual preencher valores ausentes. Obrigatório.

  • missing_values_column: a coluna que contém valores ausentes (valores null e strings vazias). Obrigatório.

  • output_column: o nome da nova coluna que conterá valores estimados para todas as linhas cujo valor estava ausente. Opcional; o padrão é o nome da missing_values_column seguida do sufixo "_filled".

  • transformation_ctx – Uma string única que é usada para identificar informações de estado (opcional).

  • info – Uma string associada a erros na transformação (opcional).

  • stageThreshold – O número máximo de erros que podem ocorrer na transformação antes que ela falhe (opcional, o padrão é zero).

  • totalThreshold – O número máximo de erros que podem ocorrer antes que o processamento falhe (opcional, o padrão é zero).

Retorna um novo DynamicFrame com uma coluna adicional que contém estimativas para linhas com valores ausentes e o valor presente para outras linhas.