FileSize - AWS Glue

FileSize

FileSize 규칙 유형을 사용하면 파일이 특정 파일 크기 기준을 충족하는지 확인할 수 있습니다. 다음 사용 사례에 유용합니다.

  1. 생산자가 처리를 위해 빈 파일이나 상당히 작은 파일을 전송하지 않는지 확인합니다.

  2. 대상 버킷에 성능 문제로 이어질 수 있는 더 작은 파일이 없는지 확인합니다.

FileSize는 다음 지표를 수집합니다.

  1. 규정 준수: 설정한 규칙 임계치를 충족하는 파일의 비율(%) 반환

  2. 파일 수: 처리된 파일 수

  3. 최소 파일 크기(바이트)

  4. 최대 파일 크기(바이트)

Dataset.*.FileSize.Compliance: 1.00, Dataset.*.FileCount: 8.00, Dataset.*.MaximumFileSize: 327413121.00, Dataset.*.MinimumFileSize: 204558920.00

이러한 지표에 대해서는 이상 탐지가 지원되지 않습니다.

파일 크기 검증

file.dat가 2MB를 초과하면 이 규칙이 통과됩니다.

FileSize "s3://bucket/file.dat" > 2 MB

지원되는 단위에는 B(바이트), MB(메가 바이트), GB(기가 바이트) 및 TB(테라 바이트)가 포함됩니다.

폴더에서 파일 크기 검증

FileSize "s3://bucket/" > 5 B FileSize "s3://bucket/" < 2 GB

s3://bucket의 파일 중 70%가 2GB~1TB인 경우 이 규칙을 통과합니다.

FileSize "s3://bucket/" between 2 GB and 1 TB with threshold > 0.7

데이터 프레임에서 직접 파일 이름 추론

항상 파일 경로를 제공하지 않아도 됩니다. 예를 들어 Data Catalog에서 규칙을 작성할 때 카탈로그 테이블에서 사용 중인 폴더를 찾기 어려울 수 있습니다. AWS Glue Data Quality에서는 데이터 프레임을 채우는 데 사용되는 특정 폴더나 파일을 찾을 수 있습니다.

FileSize < 10 MB with threshold > 0.7

이때 몇 가지 고려 사항이 있습니다.

  1. AWS Glue ETL에서는 Amazon S3 또는 Data Catalog 변환 직후 DataQuality 평가 변환이 있어야 합니다.

  2. 이 규칙은 AWS Glue 대화형 세션에서 작동하지 않습니다.