FileSize
A regra FileSize permite que você garanta que os arquivos atendam a determinados critérios de tamanho. Isso é útil para os seguintes casos de uso:
-
Certificar-se de que os produtores não estejam enviando arquivos vazios ou substancialmente menores para processamento.
-
Certificar-se de que os buckets de destino não tenham arquivos menores, o que pode causar problemas de desempenho.
O FileSize reúne as seguintes métricas:
-
Conformidade: retorna a porcentagem de arquivos que atendem ao limite da regra que você estabeleceu
-
Contagem de arquivos: número de arquivos processados
-
Tamanho mínimo do arquivo em bytes
-
Tamanho máximo do arquivo em bytes
Dataset.*.FileSize.Compliance: 1.00, Dataset.*.FileCount: 8.00, Dataset.*.MaximumFileSize: 327413121.00, Dataset.*.MinimumFileSize: 204558920.00
A detecção de anomalias não é compatível com essas métricas.
Validar o tamanho dos arquivos
Essa regra será válida quando file.dat for maior do que 2 MB.
FileSize "s3://bucket/file.dat" > 2 MB
As unidades compatíveis incluem B (bytes), MB (megabytes), GB (gigabytes) e TB (terabytes).
Validar o tamanho dos arquivos nas pastas
FileSize "s3://bucket/" > 5 B FileSize "s3://bucket/" < 2 GB
Essa regra será válida se 70% dos arquivos em s3://bucket tiverem entre 2 GB e 1 TB.
FileSize "s3://bucket/" between 2 GB and 1 TB with threshold > 0.7
Dedução de nomes de arquivos diretamente de quadros de dados
Você nem sempre precisa fornecer um caminho de arquivo. Por exemplo, quando você está criando a regra no Catálogo de Dados, pode ser difícil descobrir quais pastas as tabelas do catálogo estão usando. O AWS Glue Data Quality pode encontrar as pastas ou arquivos específicos usados para o preenchimento do quadro de dados.
FileSize < 10 MB with threshold > 0.7
Existem algumas considerações:
-
No ETL do AWS Glue, você deve ter a transformação EvaluateDataQuality imediatamente após uma transformação do Amazon S3 ou do Catálogo de Dados.
-
Essa regra não funcionará nas sessões interativas do AWS Glue.