本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 AWS Glue ETL 工作中設定異常偵測
若要開始在 AWS Glue Studio 中進行異常偵測,請開啟 AWS Glue Studio 工作,然後按一下「評估資料品質轉換」。
啟用此功能後, AWS Glue 資料品質會隨著時間的推移分析您的資料,以偵測異常情況。它提供有關數據的有價值的數據統計和觀察,使您可以對任何已識別的異常採取行動。
檢閱異常偵測文件以瞭解此功能的內部運作方式。
啟用異常偵測
若要在 AWS Glue Studio 中啟用異常偵測功能:
-
選擇作業中的 Data Quality 節點,然後選擇異常偵測索引標籤。切換以開啟「啟用異常偵測」。
-
選擇新增分析器,定義要監視異常的資料。您可以填入兩個欄位:「統計資料」和「資料」。
-
統計資料是關於資料形狀和其他屬性的資訊。您可以一次選擇一或多個統計資料,或選擇 [所有統計資料]。統計數據包括:完整性,唯一性,平均值 StandardDeviation,總和 DistinctValuesCount, UniqueValueRatio 熵等。如需詳細資訊,請參閱分析儀文件。
-
資料是資料集中的資料欄。您可以選擇所有資料欄或個別資料欄。
-
-
選擇新增異常偵測範圍來儲存變更。新增分析儀之後,您可以在「異常偵測範圍」區段中看到它們。
您也可以使用動作功能表來編輯分析器,或選擇規則集編輯器索引標籤,然後直接在規則集編輯器記事本中編輯分析器。您會看到您已經建立的任何規則下儲存的分析器。
Rules = [ ] Analyzers = [ Completeness “id” ]
設定更新的規則集和分析儀後, AWS Glue 資料品質會持續監控傳入的資料串流。它可以通過警報或作業停止發出信號,具體取決於您的設置。這項主動監控有助於確保整個資料管線的資料品質和完整性。
在下一節中,您將學習如何有效監控系統識別的異常情況。您還將學習如何查看和分析 AWS Glue 數據質量收集的數據統計信息。此外,您也會瞭解如何提供意見反應給支援異常偵測功能的機器學習模型。此回饋迴圈對於提高模型的準確性,並確保模型可以有效地偵測符合您特定業務需求和資料模式的異常情況至關重要。