AWS Glue 資料品質 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Glue 資料品質

AWS Glue Data Quality 可讓您測量和監控資料的品質,以便做出良好的商業決策。在開放原始碼 DeeQu 架構的基礎上, AWS Glue Data Quality 提供受管、無伺服器的體驗。 AWS Glue Data Quality 可與 Data Quality Definition Language (DQDL) 搭配使用,這是您用來定義資料品質規則的網域特定語言。若要進一步了解 DQDL和 支援的規則類型,請參閱 資料品質定義語言 (DQDL) 參考

如需了解產品詳細資訊和定價,請參閱 AWS Glue Data Quality 的服務頁面。

優點和重要功能

AWS Glue Data Quality 的優點和主要功能包括:

  • 無伺服器 – 沒有安裝、修補或維護。

  • 快速入門 – AWS Glue Data Quality 會快速分析您的資料,並為您建立資料品質規則。只要按兩下即可開始使用:「建立資料品質規則 → 建議規則」。

  • 偵測資料品質問題 – 使用機器學習 (ML) 來偵測異常和 hard-to-detect資料品質問題。

  • 改善您的規則 - 透過 25 個以上的 out-of-the-box DQ 規則,您可以建立符合您特定需求的規則。

  • 評估品質並做出自信的業務決策:評估規則後,即可取得資料品質分數供您了解資料運作狀態。使用資料品質分數做出自信的業務決策。

  • 錯誤資料的零輸入 – AWS Glue Data Quality 可協助您識別導致品質分數下降的確切記錄。輕鬆識別、隔離並修復這些記錄。

  • 隨需付費 – 您不需要使用 AWS Glue Data Quality 的年度授權。

  • 無鎖定 – AWS Glue 資料品質建立在開放原始碼上 DeeQu,可讓您以開放語言保留您正在撰寫的規則。

  • 資料品質檢查 – 您可以在 上強制執行資料品質檢查 Data Catalog 以及 AWS Glue ETL 管道可讓您管理靜態和傳輸中的資料品質。

  • ML 型資料品質偵測 – 使用機器學習 (ML) 來偵測異常和 hard-to-detect資料品質問題。

  • 開放語言來表達規則 – 確保資料品質規則的撰寫一致且簡單。商業使用者可以輕鬆地以他們能夠理解的直接語言來表達資料品質規則。對於工程師,此語言提供彈性來產生程式碼、實作一致的版本控制,以及自動化部署。

運作方式

AWS Glue Data Quality 有兩個進入點: AWS Glue Data Catalog 和 AWS Glue ETL 任務。本節提供每個進入點支援的使用案例和 AWS Glue 功能的概觀。

的資料品質 AWS Glue Data Catalog

AWS Glue Data Quality 會評估存放在 AWS Glue Data Catalog 其中的物件,提供非編碼器輕鬆設定資料品質規則的方式。這些人員角色包括資料管理員和業務分析師。

您可以針對下列使用案例選擇此選項:

  • 您想要對已在 AWS Glue Data Catalog中分類的資料集執行資料品質任務。

  • 您致力於資料控管,且需要持續識別或評估資料湖中的資料品質問題。

您可以使用下列介面來管理資料型錄的資料品質:

  • AWS Glue 管理主控台

  • AWS Glue APIs

若要開始使用 AWS Glue 的資料品質, AWS Glue Data Catalog 請參閱開始使用適用於 Data Catalog 的 AWS Glue Data Quality

任務的資料品質 AWS Glue ETL

AWS Glue 任務的資料品質 AWS Glue ETL可讓您執行主動的資料品質任務。主動式任務可協助您在將資料集載入資料湖之前,識別並篩選出錯誤資料。

您可以針對下列使用案例選擇ETL任務的資料品質:

  • 您想要將資料品質任務納入您的ETL任務

  • 您想要撰寫程式碼,以定義ETL指令碼中的資料品質任務

  • 您想要管理在視覺化資料管道中流動的資料品質

您可以使用下列界面管理ETL任務的資料品質:

  • AWS Glue Studio、 AWS Glue Studio 筆記本和 AWS Glue 互動式工作階段

  • AWS Glue 用於ETL指令碼的程式庫

  • AWS Glue APIs

若要開始使用ETL任務的資料品質,請參閱 AWS Glue Studio 使用者指南中的教學課程:資料品質入門

比較 Data Catalog 的資料品質與ETL任務的資料品質

此資料表提供 AWS Glue Data Quality 每個進入點支援的功能概觀。

功能 適用於資料型錄的資料品質 ETL 任務的資料品質
資料來源 Amazon S3、Amazon Redshift、與 Data Catalog 相容的JDBC來源,以及交易資料湖格式,例如 Apache Iceberg、Apache Hudi 和 Delta Lake。請注意,如果資料表受到 AWS Lake Formation 管理,則不支援 Iceberg、Delta 和HUDI資料表。 AWS Glue Data Catalog 不支援在 中編製目錄的 Amazon Athena 檢視。 支援的所有資料來源 AWS Glue,包括自訂連接器和第三方連接器。
資料品質規則建議 支援 不支援
撰寫和執行DQDL規則 支援 支援
自動擴展 不支援 支援
AWS Glue Flex 支援 不支援 支援
排程 評估資料品質規則和使用 Step Functions 時支援。 使用 Step Functions 和工作流程時支援。
識別未通過資料品質檢查的記錄。 不支援 支援
整合 Amazon Eventbridge 支援 支援
與 AWS Cloudwatch 整合 支援 支援
將資料品質結果寫入 Amazon S3 支援 支援
增量資料品質 透過下推述詞支援 透過 AWS Glue 書籤支援
AWS CloudFormation 支援 支援 支援
以 ML 為基礎的異常偵測 不支援 支援
動態規則 不支援 支援

考量事項

在使用 AWS Glue Data Quality 之前,請考慮下列項目:

術語

下列清單定義了與 AWS Glue 資料品質相關的詞彙。

資料品質定義語言 (DQDL)

特定網域的語言,可用來撰寫 AWS Glue 資料品質規則。

若要進一步了解 DQDL,請參閱 資料品質定義語言 (DQDL) 參考指南。

資料品質

描述資料集服務其特定目的的程度。 AWS Glue Data Quality 會根據資料集評估規則,以測量資料品質。每個規則都會檢查特定特性,例如資料更新狀態或完整性。若要量化資料品質,您可以使用資料品質分數

資料品質分數

當您使用 Data Quality 評估規則集時,傳遞 (產生 true) AWS Glue 的資料品質規則百分比。

規則

檢查您的資料是否有特定特性並傳回布林值的DQDL表達式。如需詳細資訊,請參閱規則結構

analyzer

收集資料統計資料的DQDL表達式。分析器會收集資料統計資料,供 ML 演算法用於偵測一段時間內的異常和 hard-to-detect資料品質問題。

規則集

包含一組資料品質規則 AWS Glue 的資源。規則集必須與 AWS Glue Data Catalog中的資料表建立關聯。當您儲存規則集時, 會將 Amazon Resource Name (ARN) AWS Glue 指派給規則集。

資料品質分數

當您使用 評估規則集時,傳遞 (產生 true) 的資料品質規則百分比 AWS Glue 資料品質。

觀察

產生的未確認洞見 AWS Glue 透過分析從規則和分析器收集的資料統計資料一段時間。

限制

AWS Glue Data Quality 服務限制:

  • 您可以在規則集中擁有 2,000 個規則。如果您的規則集較大,建議您分割成多個規則集。

  • 規則集的大小為 65KB。如果您的規則集較大,建議您分割成多個規則集。

  • AWS Glue Data Quality 會在您建立規則或分析器時收集統計資料。儲存這些統計資料不會產生任何成本。不過,每個帳戶限制 100,000 個統計資料,這些統計資料最多會保留兩年。

AWS Glue Data Quality 的版本備註

本主題說明 AWS Glue Data Quality 中引入的功能。

正式推出:新功能

Data AWS Glue Quality 的一般可用性提供下列新功能:

  • 現在支援識別哪些記錄資料品質檢查失敗的功能 AWS Glue Studio

  • 全新的資料品質規則類型,例如驗證兩個資料集之間的資料參照完整性、比較兩個資料集之間的資料,以及資料類型檢查

  • 改善 中的使用者體驗 AWS Glue Data Catalog

  • 支援 Apache Iceberg、Apache Hudi 和 Delta Lake

  • 支援 Amazon Redshift

  • 使用 Amazon 簡化通知 EventBridge

  • AWS CloudFormation 支援建立規則集

  • 效能改善:在 ETL和 中快取選項 AWS Glue Studio ,以在評估資料品質時提升效能

2024 年 11 月 22 日

2023 年 11 月 27 日 (預覽)

2024 年 3 月 12 日

2024 年 6 月 26 日

  • DQDL 改善

    • DQDL 現在支援 子句的位置,讓您可以在套用 DQ 規則之前篩選資料

2024 年 8 月 7 日

  • 異常偵測和動態規則現已正式推出