FileFreshness - AWS Glue

FileFreshness

참고

모든 파일 기반 규칙의 경우 버킷과 동일한 리전에서 작업을 실행해야 합니다. Amazon S3 폴더를 구문 분석하려는 경우 해당 폴더는 Amazon S3에 있어야 합니다.

FileFreshness를 사용하면 사용자가 제공한 조건에 따라 데이터 파일을 새로 고칩니다. 파일의 마지막 수정 시간을 사용하여 데이터 파일 또는 전체 폴더가 최신 상태인지 확인합니다.

이 규칙은 두 가지 지표를 수집합니다.

  • 설정한 규칙에 따른 FileFreshness 규정 준수

  • 당일에 수정된 파일 수

{"Dataset.*.FileFreshness.Compliance":1,"Dataset.*.FileCount":1}

이상 탐지에서는 이러한 지표를 고려하지 않습니다.

파일 최신성 확인

다음 규칙은 tickets.parquet가 지난 24시간 동안 생성되도록 보장합니다.

FileFreshness "s3://bucket/artifacts/file/tickets/tickets.parquet" > (now() - 24 hours)

폴더 최신성 확인

다음 규칙은 폴더의 모든 파일이 지난 24시간 이내에 생성되거나 수정된 경우 통과됩니다.

FileFreshness "s3://bucket/" >= (now() -1 days) FileFreshness "s3://bucket/artifacts/file/tickets/" >= (now() - 24 hours)

임계치를 사용하여 폴더 또는 파일 최신성 확인

다음 규칙은 지난 10일 동안 "tickets" 폴더에 있는 파일의 10%가 생성되거나 수정된 경우 통과됩니다.

FileFreshness "s3://bucket/artifacts/file/tickets/" < (now() - 10 days) with threshold > 0.1

특정 날짜의 파일 또는 폴더 확인

특정 날짜의 파일 최신성을 확인할 수 있습니다.

FileFreshness "s3://bucket/artifacts/file/tickets/" > "2020-01-01" FileFreshness "s3://bucket/artifacts/file/tickets/" between "2023-01-01" and "2024-01-01"

데이터 프레임에서 직접 파일 이름 추론

항상 파일 경로를 제공하지 않아도 됩니다. 예를 들어 AWS Glue Data Catalog에서 규칙을 작성할 때 카탈로그 테이블에서 사용 중인 폴더를 찾기 어려울 수 있습니다. AWS Glue Data Quality에서는 데이터 프레임을 채우는 데 사용되는 특정 폴더나 파일을 찾고 해당 항목이 최신 상태인지를 감지할 수 있습니다.

FileFreshness > (now() - 24 hours)

이 규칙은 동적 프레임 또는 데이터 프레임을 채우는 데 사용되는 폴더 경로나 파일을 찾습니다. Amazon S3 경로 또는 Amazon S3 기반 AWS Glue Data Catalog 테이블에 대해 사용할 수 있습니다. 이때 몇 가지 고려 사항이 있습니다.

  1. AWS Glue ETL에서 Amazon S3 또는 AWS Glue Data Catalog 변환 직후 EvaluateDataQuality 변환이 있어야 합니다.

    스크린샷에서는 Amazon S3 노드에 연결된 데이터 품질 평가 노드를 보여줍니다.
  2. 이 규칙은 AWS Glue 대화형 세션에서 작동하지 않습니다.

두 경우 모두에서 시도하거나 Glue에서 파일을 찾을 수 없는 경우 다음 오류가 발생합니다. “Unable to parse file path from DataFrame”