FillMissingValues 類別 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

FillMissingValues 類別

FillMissingValues 類別會在指定的 DynamicFrame 中找到 null 值和空字串,並使用機器學習方法 (例如線性迴歸和隨機樹系) 來預測缺少的值。ETL 任務會使用輸入資料集中的值來訓練機器學習模型,然後預測缺少的值應該是什麼。

提示

如果您使用增量資料集,則每個增量集都會用作機器學習模型的訓練資料,因此結果可能不準確。

若要匯入:

from awsglueml.transforms import FillMissingValues

方法

apply(frame, missing_values_column, output_column ="", transformation_ctx ="", info ="", stageThreshold = 0, totalThreshold = 0)

在指定的欄中填入動態框架的缺少值,並在新的欄中傳回具有估計值的新框架。對於沒有缺少值的列,指定欄的值將被複製到新欄。

  • frame – 在其中填入缺少值的 DynamicFrame。必要。

  • missing_values_column – 包含缺少值的欄 (null 值和空字串)。必要。

  • output_column – 新欄的名稱,該欄將包含所有缺少值的列的估計值。選擇性;預設值為 missing_values_column 的名稱,字尾為 "_filled"

  • transformation_ctx – 用於識別狀態資訊的唯一字串 (選用)。

  • info – 與轉換中的錯誤相關的字串 (選用)。

  • stageThreshold – 在錯誤輸出之前,轉換作業中可發生錯誤的次數上限 (選用;預設值為零)。

  • totalThreshold – 在處理錯誤輸出之前,整體作業可發生錯誤的次數上限 (選用;預設值為零)。

傳回具有一個額外欄的新 DynamicFrame,其中包含缺少值的列估計和其他列的目前值。