資料品質檢查 - AWS 規範指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料品質檢查

資料品質是資料清理過程中不可或缺但經常被忽略的部分。下圖顯示資料品質檢查如何符合資料工程自動化和存取控制生命週期。

資料品質圖表

下表根據使用案例提供不同資料品質解決方案的概觀。

使用案例

解決方案

範例

新增資料欄層級或資料表層級品質條件的無程式碼解決方案

AWS Glue DataBrew

檢查所有資料欄值是否介於 1 和 12 之間,或者資料表或資料欄是否為空

自訂程式碼新增至 AWS Glue 任務或無程式碼解決方案 (預覽中),以新增資料欄層級或資料表層級品質條件

AWS Glue 資料品質

檢查資料欄是否first_name不是 null,或者資料欄是否僅phone_number包含數字或 "+" 運算子和/或統計函數,例如平均值或總和

自訂檢查

ETL 選擇,例如 AWS Lambda、AWSGlue Amazon EMR

檢查資料欄 A 的值是否一律大於資料欄 B 和資料欄 C 的對應值,或資料欄的值是否continent一律在地理上正確且衍生自資料city

複雜解決方案,具有指標報告、限制驗證和限制建議

Deequ

檢查資料欄指標的CompletenessConstraint完整性是否review_id等於 1