Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
FileSize
Le FileSize type de règle vous permet de vous assurer que les fichiers répondent à certains critères de taille de fichier. Cela est utile dans les cas d'utilisation suivants :
-
Assurez-vous que les producteurs n'envoient pas de fichiers vides ou nettement plus petits pour traitement.
-
Assurez-vous que vos compartiments cibles ne contiennent pas de fichiers plus petits, ce qui pourrait entraîner des problèmes de performances.
FileSize rassemble les métriques suivantes :
-
Conformité : renvoie le pourcentage de fichiers qui atteignent le seuil de règle que vous avez établi
-
Nombre de fichiers : nombre de fichiers traités
-
Taille minimale du fichier en octets
-
Taille maximale du fichier en octets
Dataset.*.FileSize.Compliance: 1.00, Dataset.*.FileCount: 8.00, Dataset.*.MaximumFileSize: 327413121.00, Dataset.*.MinimumFileSize: 204558920.00
La détection des anomalies n'est pas prise en charge pour ces métriques.
Valider la taille des fichiers
Cette règle est acceptée lorsque le fichier file.dat est supérieur à 2 Mo.
FileSize "s3://bucket/file.dat" > 2 MB
Les unités prises en charge sont les suivantes : B (octets), Mo (méga-octets), Go (gigaoctets) et To (terra octets).
Valider la taille des fichiers dans les dossiers
FileSize "s3://bucket/" > 5 B FileSize "s3://bucket/" < 2 GB
Cette règle sera acceptée si 70 % des fichiers du site s3://bucket ont une taille comprise entre 2 Go et 1 To.
FileSize "s3://bucket/" between 2 GB and 1 TB with threshold > 0.7
Déduire des noms de fichiers directement à partir de trames de données
Il n'est pas toujours nécessaire de fournir un chemin de fichier. Par exemple, lorsque vous créez la règle dans le catalogue de données, il peut être difficile de trouver les dossiers utilisés par les tables du catalogue. AWS Glue Data Quality peut trouver les dossiers ou fichiers spécifiques utilisés pour remplir votre bloc de données.
FileSize < 10 MB with threshold > 0.7
Il y a quelques considérations à prendre en compte :
-
Dans AWS GlueETL, vous devez disposer d' DataQuality Evaluate Transform immédiatement après la transformation d'Amazon S3 ou de Data Catalog.
-
Cette règle ne fonctionnera pas dans les sessions AWS Glue Interactive.