FileSize
FileSize 규칙 유형을 사용하면 파일이 특정 파일 크기 기준을 충족하는지 확인할 수 있습니다. 다음 사용 사례에 유용합니다.
-
생산자가 처리를 위해 빈 파일이나 상당히 작은 파일을 전송하지 않는지 확인합니다.
-
대상 버킷에 성능 문제로 이어질 수 있는 더 작은 파일이 없는지 확인합니다.
FileSize는 다음 지표를 수집합니다.
-
규정 준수: 설정한 규칙 임계치를 충족하는 파일의 비율(%) 반환
-
파일 수: 처리된 파일 수
-
최소 파일 크기(바이트)
-
최대 파일 크기(바이트)
Dataset.*.FileSize.Compliance: 1.00, Dataset.*.FileCount: 8.00, Dataset.*.MaximumFileSize: 327413121.00, Dataset.*.MinimumFileSize: 204558920.00
이러한 지표에 대해서는 이상 탐지가 지원되지 않습니다.
파일 크기 검증
file.dat가 2MB를 초과하면 이 규칙이 통과됩니다.
FileSize "s3://bucket/file.dat" > 2 MB
지원되는 단위에는 B(바이트), MB(메가 바이트), GB(기가 바이트) 및 TB(테라 바이트)가 포함됩니다.
폴더에서 파일 크기 검증
FileSize "s3://bucket/" > 5 B FileSize "s3://bucket/" < 2 GB
s3://bucket의 파일 중 70%가 2GB~1TB인 경우 이 규칙을 통과합니다.
FileSize "s3://bucket/" between 2 GB and 1 TB with threshold > 0.7
데이터 프레임에서 직접 파일 이름 추론
항상 파일 경로를 제공하지 않아도 됩니다. 예를 들어 Data Catalog에서 규칙을 작성할 때 카탈로그 테이블에서 사용 중인 폴더를 찾기 어려울 수 있습니다. AWS Glue Data Quality에서는 데이터 프레임을 채우는 데 사용되는 특정 폴더나 파일을 찾을 수 있습니다.
FileSize < 10 MB with threshold > 0.7
이때 몇 가지 고려 사항이 있습니다.
-
AWS Glue ETL에서는 Amazon S3 또는 Data Catalog 변환 직후 DataQuality 평가 변환이 있어야 합니다.
-
이 규칙은 AWS Glue 대화형 세션에서 작동하지 않습니다.