FileUniqueness

Modo de foco

FileUniqueness - AWS Glue

O FileUniqueness permite que você garanta que não haja arquivos duplicados nos dados que você recebeu dos produtores de dados.

A regra reúne as seguintes estatísticas de dados:

O número de arquivos que foram verificados pela regra
A taxa de exclusividade dos arquivos


Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00

Encontrar arquivos duplicados em uma pasta:


FileUniqueness "s3://bucket/" > 0.5
FileUniqueness "s3://bucket/folder/" = 1

Inferir nomes de pastas diretamente dos quadros de dados para detectar duplicatas:

Você nem sempre precisa fornecer um caminho de arquivo. Por exemplo, quando você está criando a regra no Catálogo de Dados do AWS Glue, pode ser difícil descobrir quais pastas as tabelas do catálogo estão usando. O AWS Glue Data Quality pode encontrar as pastas ou arquivos específicos usados para o preenchimento do quadro de dados.

nota

Quando a inferência é usada, as regras baseadas em arquivos só podem detectar arquivos lidos com sucesso no DynamicFrame ou no DataFrame.


FileUniqueness > 0.5
FileUniqueness with threshold = 1

Tags de regras opcionais baseadas em arquivos:

As tags permitem controlar o comportamento da regra.

recentFiles

Essa tag limita o número de arquivos processados ao manter primeiro o arquivo mais recente.


FileUniqueness "s3://amzn-s3-demo-bucket/" > 0.5 with recentFiles = 1

matchFileName

Essa tag garante que os arquivos não tenham nomes duplicados. O comportamento padrão é falso.


FileUniqueness "s3://amzn-s3-demo-bucket/" > 0.5 with matchFileName = "true"

Existem algumas considerações:

No ETL do AWS Glue, você deve ter a transformação EvaluateDataQuality imediatamente após uma transformação do Amazon S3 ou do Catálogo de Dados do AWS Glue.
Essa regra não funcionará nas sessões interativas do AWS Glue.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

FileMatch

FileSize

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie

FileUniqueness

nota

Related resources

Esta página foi útil?

Related resources

Próximo tópico:

Tópico anterior:

Precisa de ajuda?