本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
FillMissingValues 類別
FillMissingValues
類別會在指定的 DynamicFrame
中找到 null 值和空字串,並使用機器學習方法 (例如線性迴歸和隨機樹系) 來預測缺少的值。ETL 任務會使用輸入資料集中的值來訓練機器學習模型,然後預測缺少的值應該是什麼。
提示
如果您使用增量資料集,則每個增量集都會用作機器學習模型的訓練資料,因此結果可能不準確。
若要匯入:
from awsglueml.transforms import FillMissingValues
方法
apply(frame, missing_values_column, output_column ="", transformation_ctx ="", info ="", stageThreshold = 0, totalThreshold = 0)
在指定的欄中填入動態框架的缺少值,並在新的欄中傳回具有估計值的新框架。對於沒有缺少值的列,指定欄的值將被複製到新欄。
frame
– 在其中填入缺少值的DynamicFrame
。必要。missing_values_column
– 包含缺少值的欄 (null
值和空字串)。必要。output_column
– 新欄的名稱,該欄將包含所有缺少值的列的估計值。選擇性;預設值為missing_values_column
的名稱,字尾為"_filled"
。transformation_ctx
– 用於識別狀態資訊的唯一字串 (選用)。info
– 與轉換中的錯誤相關的字串 (選用)。stageThreshold
– 在錯誤輸出之前,轉換作業中可發生錯誤的次數上限 (選用;預設值為零)。totalThreshold
– 在處理錯誤輸出之前,整體作業可發生錯誤的次數上限 (選用;預設值為零)。
傳回具有一個額外欄的新 DynamicFrame
,其中包含缺少值的列估計和其他列的目前值。