Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
FileMatch
La FileMatch regola consente di confrontare i file con altri file o checksum. Questo può essere utile in alcuni scenari:
-
Convalida dei file ricevuti da fonti esterne: è possibile eseguire il confronto con i checksum FileMatch per assicurarsi di aver ricevuto i file corretti da fonti esterne. Questo aiuta a convalidare l'integrità dei dati che stai inserendo.
-
Confronto dei dati in due cartelle diverse: FileMatch può essere utilizzato per confrontare file tra due cartelle.
Nota che, a differenza di altre regole, FileMatch non raccoglie statistiche sui dati.
Convalida il file con un checksum:
FileMatch accetta un file e imposta i checksum per garantire che almeno un checksum corrisponda al file.
FileMatch "s3://bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "MD5" FileMatch "s3://bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-1" FileMatch "s3://bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-256" FileMatch "s3://bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"]
Sono supportati i seguenti algoritmi standard:
-
MD5
-
SHA-1
-
SHA-256
Se non specifichi un algoritmo, il valore di default è SHA -256.
Convalida tutti i file in una cartella con un set di checksum:
FileMatch "s3://bucket/" in ["3ee0d8617ac041793154713e5ef8f319", "7e8617ac041793154713e5ef8f319"] with hashAlgorithm = "MD5" FileMatch "s3://bucket/internal-folder/" in ["3ee0d8617ac041793154713e5ef8f319", "7e8617ac041793154713e5ef8f319"]
Confronta i file in diverse cartelle
FileMatch "s3://original_bucket/" "s3://archive_bucket/" FileMatch "s3://original_bucket/internal-folder/" "s3://original_bucket/other-folder/"
FileMatch controllerà il contenuto dei file original_bucket
e si assicurerà che corrispondano al contenutoarchive_bucket
. La regola fallirà se non corrispondono esattamente. Può anche controllare il contenuto delle cartelle interne o dei singoli file.
FileMatch può anche confrontare i singoli file l'uno con l'altro.
FileMatch "s3://bucket/file_old.json" "s3://bucket/file_new.json"
Dedurre i nomi dei file direttamente dai frame di dati
Non è sempre necessario fornire un percorso di file. Ad esempio, quando crei la regola nel AWS Glue Data Catalog (supportato da Amazon S3), potrebbe essere difficile trovare le cartelle utilizzate dalle tabelle del catalogo. AWS Glue Data Quality può trovare le cartelle o i file specifici utilizzati per popolare il tuo frame di dati.
FileMatch in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "MD5" FileMatch in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-1" FileMatch in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-256" FileMatch in ["3ee0d8617ac041793154713e5ef8f319"]
Se il checksum fornito è diverso da quello calcolato, ti FileMatch avviserà della differenza.
Ci sono alcune considerazioni:
-
In AWS GlueETL, devi avere EvaluateDataQualityTransform subito dopo una trasformazione di Amazon S3 o AWS Glue Data Catalog.
-
Questa regola non funzionerà nelle sessioni interattive di AWS Glue.