UniqueValueRatio - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

UniqueValueRatio

根據指定運算式檢查欄的唯一值比率。唯一值比率是唯一值數目除以欄中所有相異值數目的分數。唯一值正好出現一次,而相異值至少出現一次。

例如,集合 [a, a, b] 包含一個唯一值 (b) 和兩個相異值 (ab)。所以集合的唯一值比率是 ½ = 0.5。

語法

UniqueValueRatio <COL_NAME> <EXPRESSION>
  • COL_ NAME — 您要評估資料品質規則的欄名稱。

    支援的欄類型:任何欄類型

  • EXPRESSION— 針對規則類型回應執行以產生布林值的運算式。如需詳細資訊,請參閱表達式

範例:唯一值比率

此範例會根據值範圍來檢查資料欄的唯一值比率。

UniqueValueRatio "test_score" between 0 and 0.5 UniqueValueRatio "Customer_ID" between 0 and 0.9 where "Customer_ID < 10"

動態規則範例

  • UniqueValueRatio "colA" > avg(last(10))

  • UniqueValueRatio "colA" <= index(last(10),2) + std(last(5))