DQDL ルールタイプリファレンス
このセクションでは、AWS Glue Data Quality がサポートする各ルールタイプのリファレンスを提供します。
注記
現在、DQDL はリストタイプまたはネストされた列データをサポートしていません。
以下の表の括弧内の値は、ルール引数で指定された情報に置き換えられます。
ルールでは通常、式に追加の引数が必要です。
Ruletype | 説明 | 引数 | 報告されたメトリクス | ルールとしてサポートされていますか? | アナライザーとしてサポートされていますか? | 行レベルの結果を返しますか? | 動的ルールをサポートしますか? | 観察結果を生成 | Where 句の構文をサポートしますか? |
---|---|---|---|---|---|---|---|---|---|
AggregateMatch | 売上総額などのサマリーメトリクスを比較して、2 つのデータセットが一致しているかをチェックします。金融機関が、すべてのデータがソースシステムから取り込まれているかを比較する際などに便利です。 | 1 つ以上の集計 |
1 番目と 2 番目の集計列名が一致する場合:
1 番目と 2 番目の集計列の名前が異なる場合:
|
はい | いいえ | いいえ | いいえ | いいえ | なし |
AllStatistics | データセット内の指定した列の複数のメトリクスを収集するスタンドアロンアナライザー。 | 単一の列名 |
すべてのタイプの列の場合:
文字列値列のその他のメトリクス:
数値列のその他のメトリクス:
|
いいえ | はい | いいえ | いいえ | いいえ | なし |
ColumnCorrelation | 2 つの列にどの程度の相関性があるかを確認します。 | 列名はちょうど 2 つです | Multicolumn.[Column1,Column2].ColumnCorrelation |
あり | はい | いいえ | はい | いいえ | はい |
ColumnCount | 抜け落ちた列がないかを確認します。 | なし | Dataset.*.ColumnCount |
あり | はい | いいえ | はい | はい | なし |
ColumnDataType | 列がデータ型に準拠しているかをチェックします。 | 列名は 1 つだけです | Column.[Column].ColumnDataType.Compliance |
はい | いいえ | なし | はい (行レベルのしきい値式の場合) | いいえ | はい |
ColumnExists | データセットに列が存在するかをチェックします。これにより、セルフサービスのデータプラットフォームを構築しているユーザーは、特定の列が利用可能であることを確認できます。 | 列名は 1 つだけです | 該当なし | はい | いいえ | いいえ | いいえ | いいえ | なし |
ColumnLength | データの長さが一貫しているかをチェックします。 | 列名は 1 つだけです |
行レベルのしきい値が指定されている場合のその他のメトリクス:
|
あり | はい | はい (行レベルのしきい値が指定されている場合) | なし | はい。最小長と最大長を分析して観察結果のみを生成します。 | はい |
ColumnNamesMatchPattern | 列名が定義済みのパターンと一致しているかをチェックします。ガバナンスチームが列名の一貫性を保つ際などに便利です。 | 列名の正規表現 | Dataset.*.ColumnNamesPatternMatchRatio |
はい | いいえ | いいえ | いいえ | いいえ | なし |
ColumnValues | データが定義済みの値と一致しているかをチェックします。このルールは正規表現に対応しています。 | 列名は 1 つだけです |
行レベルのしきい値が指定されている場合のその他のメトリクス:
|
あり | はい | はい (行レベルのしきい値が指定されている場合) | なし | はい。最小値と最大値を分析して観察結果のみを生成します。 | はい |
Completeness | データに空白または NULL がないかをチェックします。 | 列名は 1 つだけです |
|
あり | はい | はい | はい | はい | はい |
CustomSql | ユーザーは、ほぼすべてのタイプのデータ品質チェックを SQL に実装できます。 |
SQL ステートメント (オプション) 行レベルのしきい値 |
行レベルのしきい値が指定されている場合のその他のメトリクス:
|
はい | なし | はい (行レベルのしきい値が指定されている場合) | はい | いいえ | なし |
DataFreshness | データが最新であるかをチェックします。 | 列名は 1 つだけです | Column.[Column].DataFreshness.Compliance |
はい | いいえ | はい | いいえ | いいえ | はい |
DatasetMatch | 2 つのデータセットを比較して、同期しているかを識別します。 |
参照データセットの名前 列のマッピング (オプション) 一致を確認する列 |
Dataset.[ReferenceDatasetAlias].DatasetMatch |
はい | いいえ | はい | はい | いいえ | なし |
DistinctValuesCount | 重複する値がないかをチェックします。 | 列名は 1 つだけです | Column.[Column].DistinctValuesCount |
あり | はい | はい | はい | はい | はい |
DetectAnomalies | 別のルールタイプで報告されたメトリクスに異常がないかチェックします。 | ルールタイプ | ルールタイプ引数で報告されたメトリクス (1 つまたは複数) | はい | いいえ | いいえ | いいえ | いいえ | なし |
エントロピー | データのエントロピーをチェックします。 | 列名は 1 つだけです | Column.[Column].Entropy |
あり | はい | いいえ | はい | いいえ | はい |
IsComplete | すべてのデータが完全であるかをチェックします。 | 列名は 1 つだけです | Column.[Column].Completeness |
はい | いいえ | はい | いいえ | いいえ | はい |
IsPrimaryKey | 列がプライマリキー (NULL および一意ではない) であるかをチェックします。 | 列名は 1 つだけです |
1 列の場合:
複数列の場合:
|
はい | いいえ | はい | いいえ | いいえ | はい |
IsUnique | データがすべて一意であるかをチェックします。 | 列名は 1 つだけです | Column.[Column].Uniqueness |
はい | いいえ | はい | いいえ | いいえ | はい |
平均値 | 平均値が、設定済みのしきい値と一致するかをチェックします。 | 列名は 1 つだけです | Column.[Column].Mean |
あり | はい | はい | はい | いいえ | はい |
ReferentialIntegrity | 2 つのデータセットに参照整合性があるかをチェックします。 |
データセットの 1 つまたは複数の列名 参照データセットの 1 つまたは複数の列名 |
Column.[ReferenceDatasetAlias].ReferentialIntegrity |
はい | いいえ | はい | はい | いいえ | なし |
RowCount | レコード数がしきい値と一致するかをチェックします。 | なし | Dataset.*.RowCount |
あり | はい | いいえ | はい | はい | はい |
RowCountMatch | 2 つのデータセットのレコード数が一致するかをチェックします。 | 参照データセットのエイリアス | Dataset.[ReferenceDatasetAlias].RowCountMatch |
はい | いいえ | いいえ | はい | いいえ | なし |
StandardDeviation | 標準偏差がしきい値と一致するかをチェックします。 | 列名は 1 つだけです | Column.[Column].StandardDeviation |
あり | はい | はい | はい | いいえ | はい |
SchemaMatch | 2 つのデータセットのスキーマが一致するかをチェックします。 | 参照データセットのエイリアス | Dataset.[ReferenceDatasetAlias].SchemaMatch |
はい | いいえ | いいえ | はい | いいえ | なし |
合計 | 合計が、設定済みのしきい値と一致するかをチェックします。 | 列名は 1 つだけです | Column.[Column].Sum |
あり | はい | いいえ | はい | いいえ | はい |
Uniqueness | データセットの一意性がしきい値と一致するかをチェックします。 | 列名は 1 つだけです | Column.[Column].Uniqueness |
あり | はい | はい | はい | いいえ | はい |
UniqueValueRatio | 一意の値の比率がしきい値と一致するかをチェックします。 | 列名は 1 つだけです | Column.[Column].UniqueValueRatio |
あり | はい | はい | はい | いいえ | はい |
FileFreshness | Amazon S3 内のファイルが最新かどうかを確認します。 | ファイルまたはフォルダのパスとしきい値。 |
|
はい | いいえ | いいえ | いいえ | いいえ | なし |
FileMatch | ファイルの内容がチェックサムまたは他のファイルと一致するかどうかを確認します。このルールはチェックサムを使用して、2 つのファイルが同じかどうかを検証します。 | ソースファイルまたはフォルダパスとターゲットファイルまたはフォルダパス。 | 統計は生成されません。 | はい | いいえ | いいえ | いいえ | いいえ | なし |
FileSize | ファイルのサイズが指定された条件と一致するかどうかを確認します。 | ファイルまたはフォルダのパスとしきい値。 |
|
はい | いいえ | いいえ | いいえ | いいえ | なし |
FileUniqueness | チェックサムを使用してファイルが一意かどうかを確認します。 | ファイルまたはフォルダのパスとしきい値。 |
|
はい | いいえ | いいえ | いいえ | いいえ | なし |
トピック
- AggregateMatch
- ColumnCorrelation
- ColumnCount
- ColumnDataType
- ColumnExists
- ColumnLength
- ColumnNamesMatchPattern
- ColumnValues
- Completeness
- CustomSQL
- DataFreshness
- DatasetMatch
- DistinctValuesCount
- Entropy
- IsComplete
- IsPrimaryKey
- IsUnique
- 平均値
- ReferentialIntegrity
- RowCount
- RowCountMatch
- StandardDeviation
- Sum
- SchemaMatch
- Uniqueness
- UniqueValueRatio
- DetectAnomalies
- FileFreshness
- FileMatch
- FileUniqueness
- FileSize