FileUniqueness - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

FileUniqueness

L'unicité des fichiers vous permet de vous assurer qu'il n'y a pas de doublons dans les données que vous avez reçues de vos producteurs de données.

Il rassemble les données statistiques suivantes

  1. nombre total de fichiers dans le dossier

  2. Le taux d'unicité des fichiers

Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00

Rechercher des fichiers dupliqués dans un dossier :

FileUniqueness "s3://bucket/" > 0.5 FileUniqueness "s3://bucket/folder/" = 1

Déduire les noms de dossiers directement à partir des blocs de données pour détecter les doublons :

Il n'est pas toujours nécessaire de fournir un chemin de fichier. Par exemple, lorsque vous créez la règle dans le catalogue de données AWS Glue, il peut être difficile de trouver les dossiers utilisés par les tables du catalogue. AWS Glue Data Quality peut trouver les dossiers ou fichiers spécifiques utilisés pour remplir votre bloc de données.

FileUniqueness > 0.5 FileUniqueness with threshold = 1

Il y a quelques considérations à prendre en compte :

  1. Dans AWS GlueETL, vous devez disposer de la EvaluateDataQualitytransformation immédiatement après une transformation d'Amazon S3 ou de AWS Glue Data Catalog.

  2. Cette règle ne fonctionnera pas dans les sessions AWS Glue Interactive.