Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

FileUniqueness

Modo de foco
FileUniqueness - AWS Glue

O FileUniqueness permite que você garanta que não haja arquivos duplicados nos dados que você recebeu dos produtores de dados.

A regra reúne as seguintes estatísticas de dados:

  1. O número de arquivos que foram verificados pela regra

  2. A taxa de exclusividade dos arquivos

Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00

Encontrar arquivos duplicados em uma pasta:

FileUniqueness "s3://bucket/" > 0.5 FileUniqueness "s3://bucket/folder/" = 1

Inferir nomes de pastas diretamente dos quadros de dados para detectar duplicatas:

Você nem sempre precisa fornecer um caminho de arquivo. Por exemplo, quando você está criando a regra no Catálogo de Dados do AWS Glue, pode ser difícil descobrir quais pastas as tabelas do catálogo estão usando. O AWS Glue Data Quality pode encontrar as pastas ou arquivos específicos usados para o preenchimento do quadro de dados.

nota

Quando a inferência é usada, as regras baseadas em arquivos só podem detectar arquivos lidos com sucesso no DynamicFrame ou no DataFrame.

FileUniqueness > 0.5 FileUniqueness with threshold = 1

Tags de regras opcionais baseadas em arquivos:

As tags permitem controlar o comportamento da regra.

recentFiles

Essa tag limita o número de arquivos processados ao manter primeiro o arquivo mais recente.

FileUniqueness "s3://amzn-s3-demo-bucket/" > 0.5 with recentFiles = 1

matchFileName

Essa tag garante que os arquivos não tenham nomes duplicados. O comportamento padrão é falso.

FileUniqueness "s3://amzn-s3-demo-bucket/" > 0.5 with matchFileName = "true"

Existem algumas considerações:

  1. No ETL do AWS Glue, você deve ter a transformação EvaluateDataQuality imediatamente após uma transformação do Amazon S3 ou do Catálogo de Dados do AWS Glue.

  2. Essa regra não funcionará nas sessões interativas do AWS Glue.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.