FileUniqueness
파일 고유성을 사용하면 데이터 생산자로부터 수신한 데이터에 중복 파일이 없는지 확인할 수 있습니다.
다음 데이터 통계를 수집함
-
폴더에서 총 파일 수
-
파일의 고유성 비율
Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00
폴더에서 중복 파일 찾기:
FileUniqueness "s3://bucket/" > 0.5 FileUniqueness "s3://bucket/folder/" = 1
데이터 프레임에서 직접 폴더 이름을 추론하여 중복 감지:
항상 파일 경로를 제공하지 않아도 됩니다. 예를 들어 AWS Glue Data Catalog에서 규칙을 작성할 때 카탈로그 테이블에서 사용 중인 폴더를 찾기 어려울 수 있습니다. AWS Glue Data Quality에서는 데이터 프레임을 채우는 데 사용되는 특정 폴더나 파일을 찾을 수 있습니다.
FileUniqueness > 0.5 FileUniqueness with threshold = 1
이때 몇 가지 고려 사항이 있습니다.
-
AWS Glue ETL에서 Amazon S3 또는 AWS Glue Data Catalog 변환 직후 EvaluateDataQuality 변환이 있어야 합니다.
-
이 규칙은 AWS Glue 대화형 세션에서 작동하지 않습니다.