Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
DataFreshness
Vérifie l'actualisation des données d'une colonne en évaluant la différence entre l'heure actuelle et les valeurs d'une colonne de date. Pour ce type de règle, vous pouvez spécifier une expression temporelle afin de vérifier que les valeurs des colonnes sont à jour.
Syntaxe
DataFreshness
<COL_NAME>
<EXPRESSION>
COL_ NAME — Le nom de la colonne par rapport à laquelle vous souhaitez évaluer la règle de qualité des données.
Types de colonne pris en charge : Date
EXPRESSION— Expression numérique exprimée en heures ou en jours. Vous devez spécifier l'unité de temps dans votre expression.
Exemple : actualisation des données
Les exemples de règles suivants vérifient l'actualisation des données.
DataFreshness "Order_Date" <= 24 hours DataFreshness "Order_Date" between 2 days and 5 days
Comportement nul
Les DataFreshness
règles échoueront pour les lignes contenant des NULL
valeurs. Si la règle échoue en raison d'une valeur nulle, la raison de l'échec s'affichera comme suit :
80.00 % of rows passed the threshold
où 20 % des lignes qui ont échoué incluent les lignes avecNULL
.
L'exemple de règle composée suivant fournit un moyen d'autoriser explicitement les NULL
valeurs :
(DataFreshness "Order_Date" <= 24 hours) OR (ColumnValues "Order_Date" = NULL)
Data Freshness pour les objets Amazon S3
Vous devrez parfois valider l'actualité des données en fonction de l'heure de création du fichier Amazon S3. Pour ce faire, vous pouvez utiliser le code suivant pour obtenir l'horodatage et l'ajouter à votre dataframe, puis appliquer des contrôles de fraîcheur des données.
df = glueContext.create_data_frame.from_catalog(database = "default", table_name = "mytable") df = df.withColumn("file_ts", df["_metadata.file_modification_time"]) Rules = [ DataFreshness "file_ts" < 24 hours ]