FileUniqueness - AWS Glue

FileUniqueness

O FileUniqueness permite que você garanta que não haja arquivos duplicados nos dados que você recebeu dos produtores de dados.

A regra reúne as estatísticas de dados a seguir

  1. Número total de arquivos na pasta

  2. A taxa de exclusividade dos arquivos

Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00

Encontrar arquivos duplicados em uma pasta:

FileUniqueness "s3://bucket/" > 0.5 FileUniqueness "s3://bucket/folder/" = 1

Inferir nomes de pastas diretamente dos quadros de dados para detectar duplicatas:

Você nem sempre precisa fornecer um caminho de arquivo. Por exemplo, quando você está criando a regra no Catálogo de Dados do AWS Glue, pode ser difícil descobrir quais pastas as tabelas do catálogo estão usando. O AWS Glue Data Quality pode encontrar as pastas ou arquivos específicos usados para o preenchimento do quadro de dados.

FileUniqueness > 0.5 FileUniqueness with threshold = 1

Existem algumas considerações:

  1. No ETL do AWS Glue, você deve ter a transformação EvaluateDataQuality imediatamente após uma transformação do Amazon S3 ou do Catálogo de Dados do AWS Glue.

  2. Essa regra não funcionará nas sessões interativas do AWS Glue.