Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
FileSize
Il FileSize tipo di regola consente di garantire che i file soddisfino determinati criteri di dimensione dei file. Questo è utile per i seguenti casi d'uso:
-
Assicurati che i produttori non inviino file vuoti o sostanzialmente più piccoli per l'elaborazione.
-
Assicurati che i bucket di destinazione non contengano file più piccoli, il che potrebbe causare problemi di prestazioni.
FileSize raccoglie le seguenti metriche:
-
Conformità: restituisce la% di file che soddisfano la soglia della regola stabilita
-
Numero di file: numero di file elaborati
-
Dimensione minima dei file in byte
-
Dimensione massima dei file in byte
Dataset.*.FileSize.Compliance: 1.00, Dataset.*.FileCount: 8.00, Dataset.*.MaximumFileSize: 327413121.00, Dataset.*.MinimumFileSize: 204558920.00
Il rilevamento delle anomalie non è supportato per queste metriche.
Convalida la dimensione dei file
Questa regola passerà quando file.dat supera i 2 MB.
FileSize "s3://bucket/file.dat" > 2 MB
Le unità supportate includono B (byte), MB (megabyte), GB (giga byte) e TB (terra byte).
Convalida la dimensione dei file nelle cartelle
FileSize "s3://bucket/" > 5 B FileSize "s3://bucket/" < 2 GB
Questa regola passerà se il 70% dei file in s3://bucket è compreso tra 2 GB e 1 TB.
FileSize "s3://bucket/" between 2 GB and 1 TB with threshold > 0.7
Dedurre i nomi dei file direttamente dai frame di dati
Non è sempre necessario fornire un percorso di file. Ad esempio, quando si crea la regola nel Data Catalog, può essere difficile individuare le cartelle utilizzate dalle tabelle del catalogo. AWS Glue Data Quality può trovare le cartelle o i file specifici utilizzati per popolare il tuo frame di dati.
FileSize < 10 MB with threshold > 0.7
Ci sono alcune considerazioni:
-
In AWS GlueETL, devi avere Evaluate DataQuality Transform subito dopo la trasformazione di Amazon S3 o Data Catalog.
-
Questa regola non funzionerà nelle sessioni interattive di AWS Glue.