Localizar e preencher valores ausentes em um conjunto de dados - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Localizar e preencher valores ausentes em um conjunto de dados

Você pode usar a transformação FillMissingValues (Preencher valores ausentes) para localizar registros no conjunto de dados que têm valores ausentes e adicionar um novo campo com um valor determinado por imputação. O conjunto de dados de entrada é usado para treinar o modelo de machine learning (ML) que determina qual deve ser o valor ausente. Se você usar conjuntos de dados incrementais, cada conjunto incremental será usado como dados de treinamento para o modelo de ML, portanto, os resultados podem não ser tão precisos.

Para adicionar um nó de transformação FillMissingValues (Preencher valores ausentes) ao diagrama de trabalho
  1. (Opcional) abra o painel Recurso e escolha FillMissingValues) para adicionar uma nova transformação ao diagrama de trabalho, se necessário.

  2. Na guia Node properties (Propriedades do nó), insira um nome para o nó no diagrama de trabalho. Se ainda não houver um nó pai selecionado, escolha um na lista Node parents (Nós pais) para usar como fonte de entrada para a transformação.

  3. Escolha a guia Transform (Transformação).

  4. Em Data field (Campo de dados), escolha o nome da coluna ou do campo nos dados de origem que você deseja analisar quanto a valores ausentes.

  5. (Opcional) no campo New field name (Nome do novo campo), insira um nome para o campo adicionado a cada registro que manterá o valor estimado de substituição para o campo analisado. Se o campo analisado não tiver um valor ausente, o valor no campo analisado será copiado para o novo campo.

    Se você não especificar um nome para o novo campo, o nome padrão será o nome da coluna analisada seguido de _filled. Por exemplo, se você inserir Age em Data field (Campo de dados) e não especificar um valor para New field name (Nome do novo campo), um novo campo chamado Age_filled será adicionado a cada registro.

  6. (Opcional) depois de configurar as propriedades do nó de transformação, você pode visualizar o esquema modificado dos dados escolhendo a guia Output schema (Esquema de saída) no painel de detalhes do nó. Na primeira vez que você escolher essa guia para qualquer nó em seu trabalho, você receberá uma solicitação para fornecer uma função do IAM para acessar os dados. Se você não tiver especificado uma função do IAM na guia Job details (Detalhes do trabalho), você receberá uma solicitação para inserir uma função do IAM aqui.

  7. (Opcional) depois de configurar as propriedades do nó e da transformação, você pode previsualizar o conjunto de dados modificado escolhendo a guia Data preview (Previsualização de dados) no painel de detalhes do nó. Na primeira vez que você escolher essa guia para qualquer nó em seu trabalho, você receberá uma solicitação para fornecer uma função do IAM para acessar os dados. Há um custo associado ao uso desse recurso e o a cobrança começa assim que você fornece uma função do IAM.