データ品質チェック - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データ品質チェック

データ品質は、データクリーニングプロセスにおいて不可欠な要素ですが、見過ごされることがよくあります。次の図は、データ品質チェックがデータエンジニアリングの自動化とアクセスコントロールのライフサイクルにどのように適合するかを示しています。

データ品質図

次の表は、ユースケースに基づくさまざまなデータ品質ソリューションの概要を示しています。

ユースケース

解決策

列レベルまたはテーブルレベルの品質条件を追加するノーコードソリューション

AWS Glue DataBrew

すべての列値が 1 ~ 12 であるか、テーブルまたは列が空であるかをチェックします

Glue AWS ジョブまたはノーコードソリューション (プレビュー中) にカスタムコードを追加して、列レベルまたはテーブルレベルの品質条件を追加する

AWS Glue データ品質

first_nameが null でないか、列に数値または「+」演算子、および/または平均や合計などの統計関数のみphone_numberが含まれているかどうかを確認します。

カスタムチェック

ETL AWS LambdaAWSGlue、Amazon など、任意の EMR

列 A の値が常に列 B と列 C の対応する値より大きいか、または列の値が常に地理的に正しくcity、列から導出continentされているかどうかを確認します。

メトリクスレポート、制約検証、制約提案を備えた洗練されたソリューション

不等

列メトリクスCompletenessConstraintの完全性の review_idが と等しいかどうかを確認します 1