AWS Glue Studio を使用したデータ品質の評価 - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue Studio を使用したデータ品質の評価

AWS Glue Data Quality は、定義したルールに基づき、データ品質の評価とモニタリングを行います。これにより、アクションが必要なデータを簡単に特定できます。AWS Glue Studio では、ビジュアルジョブにデータ品質ノードを追加して、データカタログ内のテーブルにデータ品質ルールを作成できます。これにより、経時的に進化するデータセットの変化をモニタリングし、評価できます。AWS Glue Studio で AWS Glue Data Quality を操作する方法の概要については、次の動画を参照してください。

AWS Glue Data Quality を使用する手順の概要を次に示します。

  1. データ品質ルールの作成 – 設定した組み込みルールセットを選択して、DQDL ビルダーを使用してデータ品質ルールのセットを作成します。

  2. データ品質ジョブの設定 – データ品質結果と出力オプションに基づいてアクションを定義します。

  3. [Save and run a data quality job] – ジョブを作成して実行します。ジョブを保存すると、そのジョブ用に作成したルールセットが保存されます。

  4. データ品質結果のモニタリングとレビュー – ジョブの実行が完了した後にデータ品質結果をレビューします。必要に応じて、ジョブを将来の日付にスケジュールすることもできます。

利点

データアナリスト、データエンジニア、データサイエンティストは、AWS Glue Studio でデータ品質評価ノードを使用し、ビジュアルジョブエディタでデータ品質を分析、設定、モニタリング、改善できます。データ品質ノードの使用には、次のような利点があります。

  • データ品質の問題を検出可能 - データセットの特性をチェックするルールを作成することで、問題を確認できます。

  • 簡単に開始可能 - 事前構築済みのルールとアクションで開始できます。

  • 緊密な統合 - AWS Glue Data Quality は AWS Glue データカタログ上で実行されるため、AWS Glue Studio でデータ品質ノードを使用できます。