Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
FileFreshness
Note
Pour toutes les règles basées sur des fichiers, vous devez exécuter la tâche dans la même région que votre bucket. Si vous essayez d'analyser un dossier Amazon S3, ce dossier doit exister dans Amazon S3.
FileFreshness garantit que vos fichiers de données sont à jour en fonction de l'état que vous fournissez. Il utilise l'heure de dernière modification de vos fichiers pour garantir que les fichiers de données ou l'ensemble du dossier le sont up-to-date.
Cette règle regroupe deux indicateurs :
-
FileFreshness conformité en fonction de la règle que vous avez définie
-
Nombre de fichiers modifiés au cours de la journée
{"Dataset.*.FileFreshness.Compliance":1,"Dataset.*.FileCount":1}
La détection des anomalies ne prend pas en compte ces métriques.
Vérification de la fraîcheur des fichiers
La règle suivante garantit que tickets.parquet a été créé au cours des dernières 24 heures.
FileFreshness "s3://bucket/artifacts/file/tickets/tickets.parquet" > (now() - 24 hours)
Vérifier la fraîcheur du dossier
La règle suivante s'applique si tous les fichiers du dossier ont été créés ou modifiés au cours des dernières 24 heures.
FileFreshness "s3://bucket/" >= (now() -1 days) FileFreshness "s3://bucket/artifacts/file/tickets/" >= (now() - 24 hours)
Vérification de la fraîcheur d'un dossier ou d'un fichier avec un seuil
La règle suivante est applicable si 10 % des fichiers du dossier « tickets » ont été créés ou modifiés au cours des 10 derniers jours.
FileFreshness "s3://bucket/artifacts/file/tickets/" < (now() - 10 days) with threshold > 0.1
Vérification de fichiers ou de dossiers avec des dates spécifiques
Vous pouvez vérifier la fraîcheur du fichier pour des jours spécifiques.
FileFreshness "s3://bucket/artifacts/file/tickets/" > "2020-01-01" FileFreshness "s3://bucket/artifacts/file/tickets/" between "2023-01-01" and "2024-01-01"
Déduire des noms de fichiers directement à partir de trames de données
Il n'est pas toujours nécessaire de fournir un chemin de fichier. Par exemple, lorsque vous créez la règle dans le catalogue de données AWS Glue, il peut être difficile de trouver les dossiers utilisés par les tables du catalogue. AWS Glue Data Quality peut trouver les dossiers ou fichiers spécifiques utilisés pour remplir votre dataframe et détecter s'ils sont récents.
FileFreshness > (now() - 24 hours)
Cette règle permet de trouver le chemin du dossier ou les fichiers utilisés pour remplir le cadre dynamique ou le bloc de données. Cela fonctionne pour les chemins Amazon S3 ou pour les tables AWS Glue Data Catalog basées sur Amazon S3. Il y a quelques considérations à prendre en compte :
-
Dans AWS GlueETL, vous devez avoir la EvaluateDataQualitytransformation immédiatement après une transformation d'Amazon S3 ou de AWS Glue Data Catalog.
-
Cette règle ne fonctionnera pas dans les sessions AWS Glue Interactive.
Si vous essayez dans les deux cas, ou si Glue ne trouve pas les fichiers, le message d'erreur suivant s'affichera : “Unable to parse file path from DataFrame”