Verificações de qualidade de dados - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Verificações de qualidade de dados

A qualidade dos dados é parte integrante, mas muitas vezes negligenciada, do processo de limpeza de dados. O diagrama a seguir mostra como as verificações de qualidade de dados se encaixam no ciclo de vida de automação e controle de acesso da engenharia de dados.

Diagrama de qualidade de dados

A tabela a seguir fornece uma visão geral das diferentes soluções de qualidade de dados com base no caso de uso.

Caso de uso

Solução

Exemplo

Solução sem código para adicionar condições de qualidade em nível de coluna ou de tabela

AWSGlue DataBrew

Verifica se todos os valores da coluna estão entre 1 e 12, ou se uma tabela ou coluna está vazia

Código personalizado adicionado a uma tarefa do AWS Glue ou a uma solução sem código (em versão prévia) para adicionar condições de qualidade em nível de coluna ou de tabela

AWSGlue a qualidade dos dados

Verifica se a coluna não first_name é nula ou se a coluna phone_number contém somente números ou um operador “+” e/ou funções estatísticas, como média ou soma

Verificações personalizadas

ETLde sua escolha, como AWSLambda, AWS Glue ou Amazon EMR

Verifica se o valor da coluna A é sempre maior que o valor correspondente da coluna B e da coluna C, ou se o valor da coluna continent está sempre geograficamente correto e derivado da coluna city

Solução sofisticada com um relatório de métricas, validação de restrições e sugestões de restrições

Deequ

Verifica se CompletenessConstraint a métrica de integridade da coluna review_id é igual a 1