Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
FileMatch
La FileMatch règle vous permet de comparer des fichiers à d'autres fichiers ou à des checksums. Cela peut être utile dans certains scénarios :
-
Validation des fichiers reçus de sources externes : vous pouvez vous FileMatch assurer que vous avez reçu les bons fichiers de sources externes en les comparant aux sommes de contrôle. Cela permet de valider l'intégrité des données que vous ingérez.
-
Comparaison de données dans deux dossiers différents : FileMatch peut être utilisé pour comparer des fichiers entre deux dossiers.
Notez que contrairement aux autres règles, FileMatch il ne collecte aucune statistique de données.
Validez le fichier avec une somme de contrôle :
FileMatch accepte un fichier et une somme de contrôle définie pour s'assurer qu'au moins une somme de contrôle correspond au fichier.
FileMatch "s3://bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "MD5" FileMatch "s3://bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-1" FileMatch "s3://bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-256" FileMatch "s3://bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"]
Les algorithmes standard suivants sont pris en charge :
-
MD5
-
SHA-1
-
SHA-256
Si vous ne spécifiez pas d'algorithme, la valeur par défaut est SHA -256.
Validez tous les fichiers d'un dossier avec un ensemble de checksum :
FileMatch "s3://bucket/" in ["3ee0d8617ac041793154713e5ef8f319", "7e8617ac041793154713e5ef8f319"] with hashAlgorithm = "MD5" FileMatch "s3://bucket/internal-folder/" in ["3ee0d8617ac041793154713e5ef8f319", "7e8617ac041793154713e5ef8f319"]
Comparer des fichiers dans différents dossiers
FileMatch "s3://original_bucket/" "s3://archive_bucket/" FileMatch "s3://original_bucket/internal-folder/" "s3://original_bucket/other-folder/"
FileMatch vérifiera le contenu des fichiers original_bucket
et s'assurera qu'ils correspondent à ce qu'ils contiennentarchive_bucket
. La règle échouera si elles ne correspondent pas exactement. Il peut également vérifier le contenu de dossiers internes ou de fichiers individuels.
FileMatch peut également vérifier les fichiers individuels les uns par rapport aux autres.
FileMatch "s3://bucket/file_old.json" "s3://bucket/file_new.json"
Déduire des noms de fichiers directement à partir de trames de données
Il n'est pas toujours nécessaire de fournir un chemin de fichier. Par exemple, lorsque vous créez la règle dans le catalogue de données AWS Glue (soutenu par Amazon S3), il peut être difficile de trouver les dossiers utilisés par les tables du catalogue. AWS Glue Data Quality peut trouver les dossiers ou fichiers spécifiques utilisés pour remplir votre bloc de données.
FileMatch in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "MD5" FileMatch in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-1" FileMatch in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-256" FileMatch in ["3ee0d8617ac041793154713e5ef8f319"]
Si la somme de contrôle fournie est différente de celle calculée, elle vous FileMatch avertira de la différence.
Il y a quelques considérations à prendre en compte :
-
Dans AWS GlueETL, vous devez disposer de la EvaluateDataQualitytransformation immédiatement après une transformation d'Amazon S3 ou de AWS Glue Data Catalog.
-
Cette règle ne fonctionnera pas dans les sessions AWS Glue Interactive.