Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

データ品質のスコアと異常を表示

フォーカスモード
データ品質のスコアと異常を表示 - AWS Glue

このセクションでは、Data Quality のダッシュボードとそこで提供される各種機能について説明します。

ジョブが成功したら、[Data Quality] タブを選択して、データ品質のスコアと異常を表示します。

このスクリーンショットは、選択した [Data Quality] タブとスコアとメトリクスを示しています。

[Data Quality] タブの次のコンポーネントは、役に立つ情報を提供します。

  1. [Data Quality] タブを選択すると、データ品質メトリクスが表示されます。

  2. 特定のジョブ実行 ID を選択して、Data Quality のスコアを表示します。

  3. このペインには 3 つの重要な情報が表示されます。異常、データ統計、またはルールを表示するために、個別に選択して特定のテーブルに移動することができます。

    • ルールが設定されている場合の Data Quality のスコア。

    • ルールとアナライザーによって収集された統計の数。

    • 検出された異常の総数。

  4. このトレンドチャートは、データ品質が時間の経過とともにどのように傾向しているかを表示しています。傾向にカーソルを合わせると、データ品質のスコアが悪化した特定の時点に移動できます。

  5. 経時的な異常の傾向は、時間の経過とともに検出された異常の数を示します。

  6. タブ:

    • ルールタブは、すべてのルールとステータスのリストを表示するデフォルトのタブです。評価済みルールは、動的ルールが評価された実際の値を表示する場合に便利です。

    • 統計タブにはすべての統計が一覧表示されるため、メトリクスとトレンドを経時的に表示できます。

    • 異常タブには、検出された異常のリストが表示されます。

異常の表示と異常検出アルゴリズムのトレーニング

このスクリーンショットは、異常タブとメトリクスを示しています。

上記のイメージの呼び出し:

  1. 異常が検出されたら、異常をクリックするか、異常タブを選択します。

  2. AWS Glue Data Quality は、異常、実際の値、予測範囲の詳細な説明を提供します

  3. AWS Glue Data Quality はトレンドラインを表示します。実際の値、実際の値 (赤い線) に基づく派生的傾向、上限値および下限値が示されています。

  4. AWS Glue Data Quality では、将来のパターンをキャプチャするために使用できるデータ品質ルールを推奨しています。推奨されるすべてのルールをコピーしてデータ品質ノードに適用し、これらのパターンを効果的にキャプチャできます。

  5. 機械学習 (ML) モデルに入力を提供して異常値を除外し、将来の実行で異常を正確かつ確実に検出できます。異常を明示的に除外しない場合、AWS Glue Data Quality はそれらを将来の予測のモデルの一部として自動的に考慮します。指定したモデル入力が反映されるのは最新の実行のみであることに注意してください。例えば、過去数回の実行から異常なポイントを除外した場合、最新の実行でモデル入力を表示および更新しない限り、モデルはそれらの変更を反映しません。モデルは、最新の実行で必要な調整を行うまで、以前に提供された入力を引き続き使用します。異常値の除外を積極的に管理することで、特定のデータパターンと要件に対する異常の構成要素への ML モデルの理解を絞り込み、時間の経過とともにより正確な異常検出を行うことができます。

時間の経過に伴うデータ統計の表示とトレーニング入力の提供

データ統計やデータプロファイルを表示し、時間の経過とともにどのように進行しているかを表示したい場合があります。これを行うには、[統計] を選択するか、[統計] タブを開きます。その後、AWS Glue Data Quality によって収集された最新のデータ統計を表示できます。

このスクリーンショットは、データセットと列の統計を含む統計タブを示しています。

[トレンドの表示] をクリックすると、各統計が時間の経過とともにどのように進行しているかが表示されます。

このスクリーンショットは、データセットと列の統計を含む統計タブを示しています。
  1. 特定の列の統計を選択できます

  2. 傾向の進行状況を確認できます

  3. 異常な値を選択して、除外したり含めたりできます。このフィードバックを提供することで、アルゴリズムは識別された異常なデータポイントを除外または含め、モデルを再トレーニングします。この再トレーニングプロセスにより、どの値を異常と見なすべきかについて、モデルが提供したフィードバックから学習するため、正確な異常検出を行うことができます。

    このフィードバックループを通じて、アルゴリズムの特定のデータパターンとビジネス要件に対する異常の構成要素への理解を絞り込むことができます。再トレーニングされたモデルでは、異常としてフラグを付けるべきではない値を除外したり、見逃された値を含めたりすることで、予想されるデータポイントと真に異常なデータポイントの区別がしやすくなります。

プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.