데이터 품질 확인 - AWS 규범적 지침

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 품질 확인

데이터 품질은 필수이지만 데이터 정리 프로세스에서 종종 간과되는 부분입니다. 다음 다이어그램은 데이터 품질 검사가 데이터 엔지니어링 자동화 및 액세스 제어 수명 주기에 어떻게 적합한지 보여줍니다.

데이터 품질 다이어그램

다음 표에서는 사용 사례에 따라 다양한 데이터 품질 솔루션에 대한 개요를 제공합니다.

사용 사례

솔루션

열 수준 또는 테이블 수준 품질 조건을 추가하는 코드 없는 솔루션

AWS Glue DataBrew

모든 열 값이 1에서 12 사이인지 또는 테이블이나 열이 비어 있는지 확인합니다.

AWS Glue 작업 또는 코드 없는 솔루션(미리 보기)에 사용자 지정 코드를 추가하여 열 수준 또는 테이블 수준 품질 조건 추가

AWS Glue 데이터 품질

열이 nullfirst_name이 아닌지 또는 열에 숫자 또는 “+” 연산자 및/또는 평균 또는 합계와 같은 통계 함수만 phone_number 포함되어 있는지 확인합니다.

사용자 지정 검사

ETL AWS Lambda , AWS Glue 또는 AmazonEMR과 같은 선택 사항

열 A의 값이 항상 열 B 및 열 C의 해당 값보다 큰지 또는 열 값이 항상 지리적으로 올바르고 city 열에서 파생continent되었는지 확인합니다.

지표 보고서, 제약 조건 검증 및 제약 조건 제안이 포함된 정교한 솔루션

디쿼리

열 지표의 완전성에 CompletenessConstraint 대한 이 review_id와 동일한지 확인합니다. 1