El tipo de regla FileSize le permite asegurarse de que los archivos cumplan ciertos criterios de tamaño de archivo. Esto resulta útil para los siguientes casos de uso:
-
Asegurarse de que los productores no envíen archivos vacíos o sustancialmente más pequeños para su procesamiento.
-
Asegurarse de que sus buckets de destino no tengan archivos más pequeños, lo que podría provocar problemas de rendimiento.
FileSize recopila las siguientes métricas:
-
Conformidad: devuelve el porcentaje (%) de archivos que cumplen el umbral de la regla que ha establecido
-
Recuento de archivos: el número de archivos que ha analizado la regla
-
Tamaño mínimo de archivo en bytes
-
Tamaño máximo de archivo en bytes
Dataset.*.FileSize.Compliance: 1.00,
Dataset.*.FileCount: 8.00,
Dataset.*.MaximumFileSize: 327413121.00,
Dataset.*.MinimumFileSize: 204558920.00
Estas métricas no admiten la detección de anomalías.
Validación del tamaño de los archivos
Esta regla se aplicará cuando el archivo file.dat ocupe más de 2 MB.
FileSize "s3://amzn-s3-demo-bucket/file.dat" > 2 MB
Las unidades compatibles incluyen B (bytes), MB (megabytes), GB (gigabytes) y TB (terabytes).
Validación del tamaño de los archivos en las carpetas
FileSize "s3://bucket/" > 5 B
FileSize "s3://bucket/" < 2 GB
Esta regla se aplicará si el 70 % de los archivos de s3://amzn-s3-demo-bucket tienen entre 2 GB y 1 TB.
FileSize "s3://amzn-s3-demo-bucket/" between 2 GB and 1 TB with threshold > 0.7
Cómo inferir los nombres de los archivos directamente de los marcos de datos
No siempre tiene que proporcionar una ruta de archivo. Por ejemplo, al crear la regla en el Catálogo de datos, puede resultar difícil encontrar qué carpetas usan las tablas del catálogo. AWS Calidad de datos de Glue puede encontrar las carpetas o archivos específicos que se usan para rellenar su marco de datos.
nota
Esta característica solo funcionará cuando los archivos se lean correctamente en DynamicFrame o DataFrame.
FileSize < 10 MB with threshold > 0.7
Etiquetas de reglas opcionales basadas en archivos:
Las etiquetas permiten controlar el comportamiento de las reglas.
recentFiles
Esta etiqueta limita el número de archivos procesados dejando primero el archivo más reciente.
FileSize "s3://amzn-s3-demo-bucket/" > 5 B with recentFiles = 1
matchFileName
Esta etiqueta garantiza que los archivos no tengan nombres duplicados. El comportamiento predeterminado es false.
FileSize "s3://amzn-s3-demo-bucket/" > 5 B with matchFileName = "true"
Existen algunas consideraciones:
-
En la ETL de AWS Glue, debe tener la transformación EvaluateDataQuality inmediatamente después de una transformación de Amazon S3 o del Catálogo de datos.
-
Esta regla no funcionará en las sesiones interactivas de AWS Glue.