資料品質 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料品質

資料品質會自動監控生產環境中的機器學習 (ML) 模型,並在發生資料品質問題時通知您。生產環境中的機器學習 (ML) 模型必須對實際資料進行預測,這些資料不像大多數訓練資料集那樣仔細策劃。在生產環境中,如果模型收到的資料的統計性質偏離其訓練基準資料的本質,則模型的預測準確度會開始下降。Amazon SageMaker Model Monitor 使用規則來偵測資料偏離,並在發生時提醒您。若要監控資料品質,請依照下列步驟執行:

  • 啟用資料擷取。這會擷取即時推論端點或批次轉換工作的推論輸入和輸出,並將資料存放在 Amazon S3 中。如需詳細資訊,請參閱資料擷取

  • 建立基準。在此步驟中,您需執行基準工作來分析您提供的輸入資料集。基準使用 Deequ (採用 Apache Spark 架構的開放原始碼程式庫,用於測量大型資料集的資料品質),計算每個功能的基準結構描述限制條件和統計資料。如需詳細資訊,請參閱建立基準

  • 定義和排程資料品質監控工作。如需資料品質監控工作的特定資訊和程式碼範例,請參閱排程資料品質監控工作。如需監控工作的一般資訊,請參閱排定監控工作

    • 選擇性地使用預先處理和後製處理指令碼,來轉換資料品質分析中的資料。如需詳細資訊,請參閱預處理和後處理

  • 檢視資料品質指標。如需詳細資訊,請參閱統計資料的結構描述 (statistics.json 檔案)

  • 將資料品質監控與 Amazon 整合 CloudWatch。如需詳細資訊,請參閱CloudWatch 指標

  • 解譯監控工作的結果。如需詳細資訊,請參閱解讀結果

  • 如果您使用即時端點,請使用 SageMaker Studio 啟用資料品質監控並視覺化結果。如需詳細資訊,請參閱在 Amazon SageMaker Studio 中視覺化即時端點的結果

注意

模型監控只會計算表格式資料的模型指標和統計資料。例如,將影像做為輸入並根據該影像輸出標籤的影像分類模型仍可受監控。模型監控能夠計算輸出的指標和統計資料,而不是輸入。