本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
DQDL 規則類型參考
本節提供 Glue Data Quality AWS 支援的每個規則類型的參考。
注意
DQDL 目前不支援巢狀或清單類型的資料欄資料。
下表中括號內的值將被替換為規則引數中提供的資訊。
規則通常需要額外的引數才能表達式。
Ruletype | 描述 | 引數 | 報告的指標 | 支援作為規則? | 支援作為分析器? | 傳回資料列層級結果? | 動態規則支援? | 產生觀察 | 是否支援 條款語法? |
---|---|---|---|---|---|---|---|---|---|
AggregateMatch | 透過比較諸如總銷售額等摘要指標,檢查兩個資料集是否相符。這可讓金融機構比較是否從來源系統中擷取所有資料,因此非常實用。 | 一或多個彙總 |
當第一個和第二個彙總資料欄名稱相符時:
當第一個和第二個彙總資料欄名稱不相符時:
|
是 | 否 | 否 | 否 | 否 | 否 |
AllStatistics | 單機分析器可收集資料集中所提供資料欄的多個指標。 | 單一資料欄名稱 |
所有類型的資料欄:
字串值資料欄的其他指標:
數值資料欄的其他指標:
|
否 | 是 | 否 | 否 | 否 | 否 |
ColumnCorrelation | 檢查兩個資料欄的關聯程度。 | 剛好兩個資料欄名稱 | Multicolumn.[Column1,Column2].ColumnCorrelation |
是 | 是 | 否 | 是 | 否 | 是 |
ColumnCount | 檢查是否有任何資料欄遭到捨棄。 | 無 | Dataset.*.ColumnCount |
是 | 是 | 否 | 是 | 是 | 否 |
ColumnDataType | 檢查資料欄是否與資料類型相容。 | 剛好一個資料欄名稱 | Column.[Column].ColumnDataType.Compliance |
是 | 否 | 否 | 是,在資料列層級閾值表達式中 | 否 | 是 |
ColumnExists | 檢查資料集中是否存在資料欄。這可讓客戶建立自助式資料平台,確保某些資料欄可供使用。 | 剛好一個資料欄名稱 | N/A | 是 | 否 | 否 | 否 | 否 | 否 |
ColumnLength | 檢查資料的長度是否一致。 | 剛好一個資料欄名稱 |
提供資料列層級閾值時的其他指標:
|
是 | 是 | 是,當提供資料列層級臨界值時 | 否 | 是。僅透過分析最小和最大長度來產生觀察 | 是 |
ColumnNamesMatchPattern | 檢查資料欄名稱是否與定義的模式相符。對於控管團隊強制執行資料欄名稱一致性非常實用。 | 資料欄名稱的 regex | Dataset.*.ColumnNamesPatternMatchRatio |
是 | 否 | 否 | 否 | 否 | 否 |
ColumnValues | 檢查每個定義值的資料是否一致。此規則支援規則運算式。 | 剛好一個資料欄名稱 |
提供資料列層級閾值時的其他指標:
|
是 | 是 | 是,當提供資料列層級臨界值時 | 否 | 是。僅透過分析最小和最大值來產生觀察 | 是 |
完整度 | 檢查資料中是否有任何空白或 NULL 值。 | 剛好一個資料欄名稱 |
|
是 | 是 | 是 | 是 | 是 | 是 |
CustomSql | 客戶可以在 SQL 中實作幾乎所有類型的資料品質檢查。 |
SQL 陳述式 (選用) 資料列層級閾值 |
提供資料列層級閾值時的其他指標:
|
是 | 否 | 是,當提供資料列層級臨界值時 | 是 | 否 | 否 |
DataFreshness | 檢查資料是否為最新狀態。 | 剛好一個資料欄名稱 | Column.[Column].DataFreshness.Compliance |
是 | 否 | 是 | 否 | 否 | 是 |
DatasetMatch | 比較兩個資料集並識別其是否同步。 |
參考資料集的名稱 資料欄映射 (選用) 要檢查相符項目的資料欄 |
Dataset.[ReferenceDatasetAlias].DatasetMatch |
是 | 否 | 是 | 是 | 否 | 否 |
DistinctValuesCount | 檢查重複值。 | 剛好一個資料欄名稱 | Column.[Column].DistinctValuesCount |
是 | 是 | 是 | 是 | 是 | 是 |
DetectAnomalies | 檢查其他規則類型報告指標中的異常。 | 規則類型 | 規則類型引數報告的指標 | 是 | 否 | 否 | 否 | 否 | 否 |
Entropy | 檢查資料的熵。 | 剛好一個資料欄名稱 | Column.[Column].Entropy |
是 | 是 | 否 | 是 | 否 | 是 |
IsComplete | 檢查是否 100% 的資料皆為已完成。 | 剛好一個資料欄名稱 | Column.[Column].Completeness |
是 | 否 | 是 | 否 | 否 | 是 |
IsPrimaryKey | 檢查資料欄是否為主索引鍵 (非 NULL 且是唯一的)。 | 剛好一個資料欄名稱 |
對於單一資料欄:
對於多個資料欄:
|
是 | 否 | 是 | 否 | 否 | 是 |
IsUnique | 檢查是否 100% 的資料皆為唯一。 | 剛好一個資料欄名稱 | Column.[Column].Uniqueness |
是 | 否 | 是 | 否 | 否 | 是 |
Mean | 檢查平均值是否與設定的閾值相符。 | 剛好一個資料欄名稱 | Column.[Column].Mean |
是 | 是 | 是 | 是 | 否 | 是 |
ReferentialIntegrity | 檢查兩個資料集是否具有參照完整性。 |
資料集中一或多個資料欄名稱 參考資料集中的一或多個資料欄名稱 |
Column.[ReferenceDatasetAlias].ReferentialIntegrity |
是 | 否 | 是 | 是 | 否 | 否 |
RowCount | 檢查記錄計數是否與閾值相符。 | 無 | Dataset.*.RowCount |
是 | 是 | 否 | 是 | 是 | 是 |
RowCountMatch | 檢查兩個資料集之間的記錄計數是否相符。 | 參考資料集別名 | Dataset.[ReferenceDatasetAlias].RowCountMatch |
是 | 否 | 否 | 是 | 否 | 否 |
StandardDeviation | 檢查標準差是否與閥值相符。 | 剛好一個資料欄名稱 | Column.[Column].StandardDeviation |
是 | 是 | 是 | 是 | 否 | 是 |
SchemaMatch | 檢查兩個資料集之間的結構描述是否相符。 | 參考資料集別名 | Dataset.[ReferenceDatasetAlias].SchemaMatch |
是 | 否 | 否 | 是 | 否 | 否 |
Sum | 檢查總和是否與設定的閾值相符。 | 剛好一個資料欄名稱 | Column.[Column].Sum |
是 | 是 | 否 | 是 | 否 | 是 |
Uniqueness | 檢查資料集的唯一性是否與閾值相符。 | 剛好一個資料欄名稱 | Column.[Column].Uniqueness |
是 | 是 | 是 | 是 | 否 | 是 |
UniqueValueRatio | 檢查唯一值定量是否與閥值相符。 | 剛好一個資料欄名稱 | Column.[Column].UniqueValueRatio |
是 | 是 | 是 | 是 | 否 | 是 |
FileFreshness | 檢查 Amazon S3 中的檔案是否新鮮。 | 檔案或資料夾路徑和閾值。 |
|
是 | 否 | 否 | 否 | 否 | 否 |
FileMatch | 檢查檔案的內容是否符合檢查總和或其他檔案。此規則使用檢查總和來驗證兩個檔案是否相同。 | 來源檔案或資料夾路徑,以及目標檔案或資料夾路徑。 | 不會產生統計資料。 | 是 | 否 | 否 | 否 | 否 | 否 |
FileSize | 檢查檔案的大小是否符合指定的條件。 | 檔案或資料夾路徑和閾值。 |
|
是 | 否 | 否 | 否 | 否 | 否 |
FileUniqueness | 使用檢查總和檢查檔案是否是唯一的。 | 檔案或資料夾路徑和閾值。 |
|
是 | 否 | 否 | 否 | 否 | 否 |