FileUniqueness
O FileUniqueness permite que você garanta que não haja arquivos duplicados nos dados que você recebeu dos produtores de dados.
A regra reúne as estatísticas de dados a seguir
-
Número total de arquivos na pasta
-
A taxa de exclusividade dos arquivos
Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00
Encontrar arquivos duplicados em uma pasta:
FileUniqueness "s3://bucket/" > 0.5 FileUniqueness "s3://bucket/folder/" = 1
Inferir nomes de pastas diretamente dos quadros de dados para detectar duplicatas:
Você nem sempre precisa fornecer um caminho de arquivo. Por exemplo, quando você está criando a regra no Catálogo de Dados do AWS Glue, pode ser difícil descobrir quais pastas as tabelas do catálogo estão usando. O AWS Glue Data Quality pode encontrar as pastas ou arquivos específicos usados para o preenchimento do quadro de dados.
FileUniqueness > 0.5 FileUniqueness with threshold = 1
Existem algumas considerações:
-
No ETL do AWS Glue, você deve ter a transformação EvaluateDataQuality imediatamente após uma transformação do Amazon S3 ou do Catálogo de Dados do AWS Glue.
-
Essa regra não funcionará nas sessões interativas do AWS Glue.