AWS Glue Data Quality
AWS Glue Data Quality에서는 올바른 비즈니스 결정을 내릴 수 있도록 데이터의 품질을 측정하고 모니터링합니다. 오픈 소스 DeeQu 프레임워크를 기반으로 구축된 AWS Glue Data Quality는 관리형 서버리스 환경을 제공합니다. AWS Glue Data Quality는 데이터 품질 정의 언어(DQDL)를 사용합니다. 이 언어는 데이터 품질에 대한 규칙을 정의하는 데 사용되는 도메인 특정 언어입니다. DQDL 및 지원되는 규칙 유형에 대한 자세한 내용은 데이터 품질 정의 언어(DQDL) 참조 섹션을 참조하세요.
추가 제품 세부 정보 및 요금은 AWS Glue Data Quality
이점 및 주요 특징
AWS Glue Data Quality의 이점과 주요 특성은 다음과 같습니다.
-
서버리스 - 설치, 패치 또는 유지 관리가 필요하지 않습니다.
-
빠른 시작 - AWS Glue Data Quality는 데이터를 빠르게 분석하고 사용자를 위해 데이터 품질 규칙을 생성합니다. '데이터 품질 규칙 생성 → 권장 규칙'을 두 번만 클릭하여 시작할 수 있습니다.
-
데이터 품질 문제 탐지 – 기계 학습(ML)을 사용하여 이상과 탐지하기 어려운 데이터 품질 문제를 탐지합니다.
-
규칙 사용자 지정 - 25개 이상의 기본 DQ 규칙부터 시작하여 특정 요구 사항에 맞는 규칙을 생성할 수 있습니다.
-
품질 평가 및 신뢰할 수 있는 비즈니스 의사 결정 지원 - 규칙을 평가한 후에는 데이터 상태에 대한 개요를 제공하는 Data Quality 점수를 제공합니다. Data Quality 점수를 사용하여 신뢰할 수 있는 비즈니스 의사 결정을 지원합니다.
-
잘못된 데이터를 정확하게 식별 - AWS Glue Data Quality를 사용하면 품질 평가 점수를 떨어뜨리는 해당 레코드를 정확히 식별할 수 있습니다. 데이터를 쉽게 식별하고 격리한 후 수정할 수 있습니다.
-
사용한 만큼만 지불 - AWS Glue Data Quality를 사용하는 데 요구되는 연간 라이선스는 없습니다.
-
종속성 없음 - AWS Glue Data Quality는 오픈 소스 DeeQu를 기반으로 구축되었므로 작성 중인 규칙을 오픈 언어에서 유지할 수 있습니다.
-
데이터 품질 검사 - Data Catalog 및 AWS Glue ETL 파이프라인에서 데이터 품질 검사를 적용하여 저장 중인 데이터 및 전송 중인 데이터의 품질을 관리할 수 있습니다.
-
ML 기반 데이터 품질 탐지 – 기계 학습(ML)을 사용하여 이상과 탐지하기 어려운 데이터 품질 문제를 탐지합니다.
-
규칙을 표현할 수 있는 개방형 언어 - 데이터 품질 규칙이 일관되고 간단하게 작성되도록 보장합니다. 비즈니스 사용자는 자신이 이해할 수 있는 간단한 언어로 데이터 품질 규칙을 쉽게 표현할 수 있습니다. 엔지니어에게 이 언어는 코드를 생성하고, 일관된 버전 제어를 구현하고, 배포를 자동화할 수 있는 유연성을 제공합니다.
작동 방법
AWS Glue Data Quality에는 AWS Glue Data Catalog 및 AWS Glue ETL 작업이라는 두 가지 진입점이 있습니다. 이 섹션에서는 각 진입점에서 지원하는 사용 사례 및 AWS Glue 기능에 대한 개요를 제공합니다.
AWS Glue Data Catalog에 대한 데이터 품질
AWS Glue Data Quality는 AWS Glue Data Catalog에 저장된 객체를 평가합니다. 이를 통해 코딩 작성자가 아닌 사용자도 데이터 품질 규칙을 쉽게 설정할 수 있습니다. 이러한 페르소나로, 데이터 관리자 및 비즈니스 분석가가 해당됩니다.
다음과 같은 사용 사례에서 이 옵션을 선택할 수 있습니다.
-
AWS Glue Data Catalog에서 이미 카탈로그화한 데이터 세트에 대해 데이터 품질 작업을 수행하려고 합니다.
-
데이터 거버넌스 관련 업무를 수행하면서 데이터 레이크의 데이터 품질 문제를 지속적으로 식별하거나 평가해야 합니다.
다음 인터페이스를 사용하여 데이터 카탈로그의 데이터 품질을 관리할 수 있습니다.
-
AWS Glue 관리 콘솔
-
AWS Glue API
AWS Glue Data Catalog에 대해 AWS Glue Data Quality를 시작하려면 Data Catalog에서 AWS Glue Data Quality 시작하기 섹션을 참조하세요.
AWS Glue ETL 작업에 대한 데이터 품질
AWS Glue ETL 작업에 대한 AWS Glue Data Quality를 통해 사전 예방적 데이터 품질 작업을 수행할 수 있습니다. 사전 예방적 작업을 사용하면 데이터 세트를 데이터 레이크에 로드하기 전에 잘못된 데이터를 식별하고 필터링할 수 있습니다.
다음 사용 사례에서 ETL 작업에 대한 데이터 품질을 선택할 수 있습니다.
-
데이터 품질 작업을 ETL 작업에 통합하려고 합니다.
-
ETL 스크립트에서 데이터 품질 작업을 정의하는 코드를 작성하려고 합니다.
-
시각적 데이터 파이프라인에서 이동하는 데이터의 품질을 관리하려고 합니다.
다음 인터페이스를 사용하여 ETL 작업에 대한 데이터 품질을 관리할 수 있습니다.
-
AWS Glue Studio, AWS Glue Studio 노트북 및 AWS Glue 대화형 세션
-
ETL 스크립트 작성을 위한 AWS Glue 라이브러리
-
AWS Glue API
ETL 작업에 대한 Data Quality를 시작하려면 AWS Glue Studio 사용 설명서의 자습서: Data Quality 시작하기를 참조하세요.
데이터 카탈로그에 대한 데이터 품질과 ETL 작업에 대한 데이터 품질 비교
이 테이블에서는 AWS Glue Data Quality의 각 진입점에서 지원하는 기능에 대한 개요를 제공합니다.
기능 | 데이터 카탈로그에 대한 데이터 품질 | ETL 작업에 대한 데이터 품질 |
---|---|---|
데이터 소스 | Amazon S3, Amazon Redshift, 데이터 카탈로그와 호환되는 JDBC 소스, 그리고 Apache Iceberg, Apache Hudi 및 Delta Lake와 같은 트랜잭션 데이터 레이크 형식. 테이블이 AWS Lake Formation 관리형인 경우 Iceberg, Delta, HUDI 테이블은 지원되지 않습니다. AWS Glue Data Catalog로 카탈로그화된 Amazon Athena 보기는 지원되지 않습니다. | AWS Glue에서 지원하는 모든 데이터 소스(사용자 지정 커넥터 및 서드 파티 커넥터 포함). |
Data Quality 규칙 권장 사항 | 지원 | 지원되지 않음 |
DQDL 규칙 작성 및 실행 | 지원 | 지원 |
Auto Scaling | 지원되지 않음 | 지원 |
AWS Glue Flex 지원 | 지원되지 않음 | 지원 |
일정 예약 | Step Functions를 통해 데이터 품질 규칙을 평가할 때 지원됩니다. | Step Functions와 워크플로를 사용할 때 지원됩니다. |
데이터 품질 검사에 실패한 레코드 식별 | 지원되지 않음 | 지원 |
Amazon EventBridge와 통합 | 지원 | 지원 |
AWS Cloudwatch와 통합 | 지원 | 지원 |
Amazon S3에 데이터 품질 결과 작성 | 지원 | 지원 |
증분 데이터 품질 | 푸시다운 조건자를 통해 지원됨 | AWS Glue 북마크를 통해 지원됨 |
AWS CloudFormation 지원 | 지원 | 지원 |
ML 기반 이상 탐지 | 지원되지 않음 | 지원 |
동적 규칙 | 지원되지 않음 | 지원 |
고려 사항
AWS Glue Data Quality를 사용하기 전에 다음을 고려합니다.
-
데이터 품질 규칙은 중첩된 데이터 소스 또는 목록 유형 데이터 소스를 평가할 수 없습니다. 중첩된 구조체 평면화 섹션을 참조하세요.
용어
다음 목록은 AWS Glue 데이터 품질 관련 용어를 정의합니다.
- DQDL(데이터 품질 정의 언어)
-
AWS Glue 데이터 품질 규칙을 작성하는 데 사용할 수 있는 도메인별 언어입니다.
DQDL에 대한 자세한 내용은 데이터 품질 정의 언어(DQDL) 참조 안내서를 참조하세요.
- 데이터 품질
-
데이터 세트가 특정 목적에 얼마나 적합한지를 설명합니다. AWS Glue 데이터 품질은 데이터 세트를 기준으로 규칙을 평가하여 데이터 품질을 측정합니다. 각 규칙은 데이터 최신성 또는 무결성과 같은 특정 특성을 확인합니다. 데이터 품질을 정량화하려면 데이터 품질 점수를 사용할 수 있습니다.
- 데이터 품질 점수
-
AWS Glue 데이터 품질로 규칙 세트를 평가할 때 통과한 데이터 품질 규칙(true 결과)의 비율입니다.
- 규칙
-
데이터에 특정 특성이 있는지 검사하고 부울 값을 반환하는 DQDL 표현식입니다. 자세한 내용은 규칙 구조 섹션을 참조하세요.
- 분석기
-
데이터 통계를 수집하는 DQDL 표현식입니다. 분석기는 시간이 지남에 따라 ML 알고리즘이 이상과 탐지하기 어려운 데이터 품질 문제를 탐지하는 데 사용할 수 있는 데이터 통계를 수집합니다.
- 규칙 세트
-
일련의 데이터 품질 규칙으로 구성된 AWS Glue 리소스입니다. 규칙 세트는 AWS Glue Data Catalog의 테이블과 연결되어야 합니다. 규칙 세트를 저장할 때 AWS Glue에서는 Amazon 리소스 이름(ARN)을 규칙 세트에 할당합니다.
- 데이터 품질 점수
-
AWS Glue 데이터 품질로 규칙 세트를 평가할 때 통과한 데이터 품질 규칙(true 결과)의 비율입니다.
- 관찰
-
AWS Glue에서 시간이 지남에 따라 규칙과 분석기로부터 수집된 데이터 통계를 분석하여 생성되는 확인되지 않은 인사이트입니다.
Limits
AWS Glue Data Quality 서비스 한도:
-
규칙 세트에는 2,000개의 규칙을 포함할 수 있습니다. 규칙 세트가 더 크면 여러 규칙 세트로 분할하는 것이 좋습니다.
-
규칙 세트의 크기는 65KB입니다. 규칙 세트가 더 크면 여러 규칙 세트로 분할하는 것이 좋습니다.
-
AWS Glue Data Quality는 규칙 또는 분석기를 생성할 때 통계를 수집합니다. 이러한 통계를 저장하는 데는 비용이 들지 않습니다. 단, 계정당 10만 개로 통계 수가 제한되며 이러한 통계는 최대 2년간 보관됩니다.
AWS Glue Data Quality의 릴리즈 정보
이 주제에서는 AWS Glue Data Quality에 도입된 기능에 대해 설명합니다.
정식 출시: 새 기능
AWS Glue Data Quality의 정식 출시를 통해 다음과 같은 새로운 기능을 사용할 수 있습니다.
이제 데이터 품질 검사에 실패한 레코드를 식별하는 기능이 AWS Glue Studio에서 지원됩니다.
두 데이터 세트 간 데이터의 참조 무결성 검증, 두 데이터 세트 간 데이터 비교, 데이터 형식 검사와 같은 새로운 데이터 품질 규칙 유형
AWS Glue Data Catalog의 사용자 경험 개선
Apache Iceberg, Apache Hudi 및 Delta Lake에 대한 지원
Amazon Redshift에 대한 지원
Amazon EventBridge를 통한 간소화된 알림
규칙 세트 생성을 위한 AWS CloudFormation 지원
성능 개선: 데이터 품질 평가 시 더 빠른 성능을 제공하기 위해 ETL 및 AWS Glue Studio의 캐싱 옵션
2024년 11월 22일
-
파일의 데이터 품질을 관리하기 위한 새로운 규칙 유형
-
시각적 ETL 작업의 기본 데이터 품질 검사
2023년 11월 27일(미리 보기)
-
ML 기반 이상 탐지 기능은 이제 AWS Glue ETL 및 AWS Glue Studio에서 사용할 수 있습니다. 이를 통해 이제 이상과 탐지하기 어려운 데이터 품질 문제를 탐지할 수 있습니다.
2024년 3월 12일
-
DQDL 개선 사항
2024년 6월 26일
-
DQDL 개선 사항
-
DQDL은 이제 where 절을 지원하므로 DQ 규칙을 적용하기 전에 데이터를 필터링할 수 있습니다.
-
2024년 8월 7일
-
이제 이상 탐지 기능과 동적 규칙을 정식 버전으로 사용할 수 있습니다.