AWS Glue ETL ジョブでの異常検出の設定
AWS Glue Studio で異常検出を開始するには、AWS Glue Studio ジョブを開き、[データ品質変換の評価] をクリックします。
この機能を有効にすることで、AWS Glue Data Quality は時間の経過とともにデータを分析して異常を検出します。データに関する貴重なデータ統計と観測結果が提供されるため、特定された異常に対してアクションできるようになります。
この機能の内部の仕組みを理解するには、「異常検出」のドキュメントを参照してください。
異常検出の有効化
AWS Glue Studio で異常検出を有効にするには:
-
ジョブの [Data Quality] ノードを選択し、[異常検出] タブをクリックします。[異常検出を有効にする] をオンに切り替えます。
-
[アナライザーを追加] を選択して、異常を監視するデータを定義します。入力できるフィールドは [統計] と [データ] の 2 つです。
-
統計は、データの形状やその他の特性に関する情報です。一度に 1 つまたは複数の統計を選択することも、[すべての統計] を選択することもできます。統計には、Completeness (完全性)、Uniqueness (一意性)、Mean (平均)、Sum (合計)、StandardDeviation (標準偏差)、Entropy (エントロピー)、DistinctValuesCount (個別値数)、UniqueValueRatio (固有値比率) などがあります。詳細については、「アナライザー」ドキュメントを参照してください。
-
データはデータセット内の列です。すべての列を選択することも、個々の列を選択することもできます。
-
-
[異常検出範囲を追加] を選択して変更を保存します。アナライザーを作成したら、[異常検出範囲] セクションで確認できます。
[アクション] メニューを使用してアナライザーを編集したり、[ルールセットエディター] タブを選択してルールセットエディターのメモ帳でアナライザーを直接編集したりすることもできます。保存したアナライザーは、作成したルールの下に表示されます。
Rules = [ ] Analyzers = [ Completeness “id” ]
更新されたルールセットとアナライザーが設定されると、AWS Glue Data Quality は受信データストリームを継続的にモニタリングします。設定によっては、アラートやジョブの停止によって潜在的な異常を示すことがあります。このプロアクティブモニタリングは、データパイプライン全体のデータ品質と整合性を確保するのに役立ちます。
次のセクションでは、システムによって識別される異常を効果的にモニタリングする方法について説明します。また、AWS Glue Data Quality によって収集されたデータ統計を表示および分析する方法についても説明します。さらに、異常検出機能の強化につながる、機械学習モデルへのフィードバックの提供方法も理解できます。このフィードバックループは、モデルの精度を向上させ、特定のビジネス要件やデータパターンに合った異常を効果的に検出するために不可欠です。