Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
FileFreshness
Nota
Per tutte le regole basate su file, devi eseguire il job nella stessa area del bucket. Se stai tentando di analizzare una cartella Amazon S3, quella cartella deve esistere in Amazon S3.
FileFreshness assicura che i tuoi file di dati siano aggiornati in base alle condizioni fornite. Utilizza l'ora dell'ultima modifica dei file per garantire che i file di dati o l'intera cartella lo siano up-to-date.
Questa regola raccoglie due metriche:
-
FileFreshness conformità in base alla regola impostata
-
Numero di file modificati nel corso della giornata
{"Dataset.*.FileFreshness.Compliance":1,"Dataset.*.FileCount":1}
Il rilevamento delle anomalie non tiene conto di queste metriche.
Verifica della freschezza dei file
La seguente regola garantisce che tickets.parquet sia stato creato nelle ultime 24 ore.
FileFreshness "s3://bucket/artifacts/file/tickets/tickets.parquet" > (now() - 24 hours)
Controllo della freschezza delle cartelle
La seguente regola vale se tutti i file nella cartella sono stati creati o modificati nelle ultime 24 ore.
FileFreshness "s3://bucket/" >= (now() -1 days) FileFreshness "s3://bucket/artifacts/file/tickets/" >= (now() - 24 hours)
Verifica della freschezza di cartelle o file con soglia
La seguente regola vale se il 10% dei file nella cartella «tickets» sono stati creati o modificati negli ultimi 10 giorni.
FileFreshness "s3://bucket/artifacts/file/tickets/" < (now() - 10 days) with threshold > 0.1
Controllo di file o cartelle con date specifiche
Puoi verificare la freschezza dei file per giorni specifici.
FileFreshness "s3://bucket/artifacts/file/tickets/" > "2020-01-01" FileFreshness "s3://bucket/artifacts/file/tickets/" between "2023-01-01" and "2024-01-01"
Dedurre i nomi dei file direttamente dai frame di dati
Non è sempre necessario fornire un percorso di file. Ad esempio, quando si crea la regola nel AWS Glue Data Catalog, potrebbe essere difficile trovare le cartelle utilizzate dalle tabelle del catalogo. AWS Glue Data Quality può trovare le cartelle o i file specifici utilizzati per popolare il tuo dataframe e può rilevare se sono nuovi.
FileFreshness > (now() - 24 hours)
Questa regola troverà il percorso o i file della cartella utilizzati per popolare il frame dinamico o il frame di dati. Funziona con i percorsi Amazon S3 o le tabelle Glue Data Catalog AWS basate su Amazon S3. Ci sono alcune considerazioni:
-
In AWS GlueETL, devi avere EvaluateDataQualityTransform subito dopo una trasformazione di Amazon S3 o AWS Glue Data Catalog.
-
Questa regola non funzionerà nelle sessioni interattive di AWS Glue.
Se provi in entrambi i casi, o quando Glue non riesce a trovare i file, genererà il seguente errore: “Unable to parse file path from DataFrame”