DQDL 規則類型參考 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

DQDL 規則類型參考

本節提供 Glue Data Quality AWS 支援的每個規則類型的參考。

注意
  • DQDL 目前不支援巢狀或清單類型的資料欄資料。

  • 下表中括號內的值將被替換為規則引數中提供的資訊。

  • 規則通常需要額外的引數才能表達式。

Ruletype 描述 引數 報告的指標 支援作為規則? 支援作為分析器? 傳回資料列層級結果? 動態規則支援? 產生觀察 是否支援 條款語法?
AggregateMatch 透過比較諸如總銷售額等摘要指標,檢查兩個資料集是否相符。這可讓金融機構比較是否從來源系統中擷取所有資料,因此非常實用。 一或多個彙總

當第一個和第二個彙總資料欄名稱相符時:

Column.[Column].AggregateMatch

當第一個和第二個彙總資料欄名稱不相符時:

Column.[Column1,Column2].AggregateMatch

AllStatistics 單機分析器可收集資料集中所提供資料欄的多個指標。 單一資料欄名稱

所有類型的資料欄:

Dataset.*.RowCount

Column.[Column].Completeness

Column.[Column].Uniqueness

字串值資料欄的其他指標:

ColumnLength metrics

數值資料欄的其他指標:

ColumnValues metrics

ColumnCorrelation 檢查兩個資料欄的關聯程度。 剛好兩個資料欄名稱 Multicolumn.[Column1,Column2].ColumnCorrelation
ColumnCount 檢查是否有任何資料欄遭到捨棄。 Dataset.*.ColumnCount
ColumnDataType 檢查資料欄是否與資料類型相容。 剛好一個資料欄名稱 Column.[Column].ColumnDataType.Compliance 是,在資料列層級閾值表達式中
ColumnExists 檢查資料集中是否存在資料欄。這可讓客戶建立自助式資料平台,確保某些資料欄可供使用。 剛好一個資料欄名稱 N/A
ColumnLength 檢查資料的長度是否一致。 剛好一個資料欄名稱

Column.[Column].MaximumLength

Column.[Column].MinimumLength

提供資料列層級閾值時的其他指標:

Column.[Column].ColumnValues.Compliance

是,當提供資料列層級臨界值時 是。僅透過分析最小和最大長度來產生觀察
ColumnNamesMatchPattern 檢查資料欄名稱是否與定義的模式相符。對於控管團隊強制執行資料欄名稱一致性非常實用。 資料欄名稱的 regex Dataset.*.ColumnNamesPatternMatchRatio
ColumnValues 檢查每個定義值的資料是否一致。此規則支援規則運算式。 剛好一個資料欄名稱

Column.[Column].Maximum

Column.[Column].Minimum

提供資料列層級閾值時的其他指標:

Column.[Column].ColumnValues.Compliance

是,當提供資料列層級臨界值時 是。僅透過分析最小和最大值來產生觀察
完整度 檢查資料中是否有任何空白或 NULL 值。 剛好一個資料欄名稱

Column.[Column].Completeness

CustomSql 客戶可以在 SQL 中實作幾乎所有類型的資料品質檢查。

SQL 陳述式

(選用) 資料列層級閾值

Dataset.*.CustomSQL

提供資料列層級閾值時的其他指標:

Dataset.*.CustomSQL.Compliance

是,當提供資料列層級臨界值時
DataFreshness 檢查資料是否為最新狀態。 剛好一個資料欄名稱 Column.[Column].DataFreshness.Compliance
DatasetMatch 比較兩個資料集並識別其是否同步。

參考資料集的名稱

資料欄映射

(選用) 要檢查相符項目的資料欄

Dataset.[ReferenceDatasetAlias].DatasetMatch
DistinctValuesCount 檢查重複值。 剛好一個資料欄名稱 Column.[Column].DistinctValuesCount
DetectAnomalies 檢查其他規則類型報告指標中的異常。 規則類型 規則類型引數報告的指標
Entropy 檢查資料的熵。 剛好一個資料欄名稱 Column.[Column].Entropy
IsComplete 檢查是否 100% 的資料皆為已完成。 剛好一個資料欄名稱 Column.[Column].Completeness
IsPrimaryKey 檢查資料欄是否為主索引鍵 (非 NULL 且是唯一的)。 剛好一個資料欄名稱

對於單一資料欄:

Column.[Column].Uniqueness

對於多個資料欄:

Multicolumn.[CommaDelimitedColumns].Uniqueness

IsUnique 檢查是否 100% 的資料皆為唯一。 剛好一個資料欄名稱 Column.[Column].Uniqueness
Mean 檢查平均值是否與設定的閾值相符。 剛好一個資料欄名稱 Column.[Column].Mean
ReferentialIntegrity 檢查兩個資料集是否具有參照完整性。

資料集中一或多個資料欄名稱

參考資料集中的一或多個資料欄名稱

Column.[ReferenceDatasetAlias].ReferentialIntegrity
RowCount 檢查記錄計數是否與閾值相符。 Dataset.*.RowCount
RowCountMatch 檢查兩個資料集之間的記錄計數是否相符。 參考資料集別名 Dataset.[ReferenceDatasetAlias].RowCountMatch
StandardDeviation 檢查標準差是否與閥值相符。 剛好一個資料欄名稱 Column.[Column].StandardDeviation
SchemaMatch 檢查兩個資料集之間的結構描述是否相符。 參考資料集別名 Dataset.[ReferenceDatasetAlias].SchemaMatch
Sum 檢查總和是否與設定的閾值相符。 剛好一個資料欄名稱 Column.[Column].Sum
Uniqueness 檢查資料集的唯一性是否與閾值相符。 剛好一個資料欄名稱 Column.[Column].Uniqueness
UniqueValueRatio 檢查唯一值定量是否與閥值相符。 剛好一個資料欄名稱 Column.[Column].UniqueValueRatio
FileFreshness 檢查 Amazon S3 中的檔案是否新鮮。 檔案或資料夾路徑和閾值。

Dataset.*.FileFreshness.Compliance

Dataset.*.FileCount

FileMatch 檢查檔案的內容是否符合檢查總和或其他檔案。此規則使用檢查總和來驗證兩個檔案是否相同。 來源檔案或資料夾路徑,以及目標檔案或資料夾路徑。 不會產生統計資料。
FileSize 檢查檔案的大小是否符合指定的條件。 檔案或資料夾路徑和閾值。

Dataset.*.FileSize.Compliance

Dataset.*.FileCount

Dataset.*.MaximumFileSize

Dataset.*.MinimumFileSize

FileUniqueness 使用檢查總和檢查檔案是否是唯一的。 檔案或資料夾路徑和閾值。

Dataset.*.FileUniquenessRatio

Dataset.*.FileCount