本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
編輯資料流程取樣配置
將表格式資料匯入 Data Wrangler 資料流程時,您可以選擇取得資料集樣本,以加速資料探索和清理程序。在資料集範例上執行探索性轉換通常比在整個資料集上執行轉換更快,而且當您準備好匯出資料集並建立模型時,您可以將轉換套用至完整資料集。
畫布支持以下採樣方法:
FirstK-Canvas 從數據集中選擇前 K 個項目,其中 K 是您指定的數字。這種採樣方法很簡單,但如果您的數據集不是隨機排序的,則可能會引起偏差。
隨機-Canvas 隨機從數據集中選擇項目,每個項目都具有相同的可能性被選擇。這種取樣方法有助於確保樣本代表整個資料集。
分層-Canvas 根據一個或多個屬性(例如年齡和收入水平)將數據集分為組(或地層)。然後,從每個組中隨機選擇一個比例數量的項目。此方法可確保在樣本中充分表示所有相關的子群組。
您可以隨時編輯取樣配置,以變更用於資料探索的樣本大小。
若要變更您的取樣配置,請執行下列動作:
在資料流程圖中,選取資料來源節點。
選擇取樣在底部導航欄上。
將開啟「取樣」對話方塊。在 [取樣方法] 下拉式清單中,選取您想要的取樣方法。
在「最大樣本大小」中,輸入要取樣的列數。
選擇 Update (更新) 以儲存您的設定。
現在應該應用對採樣配置的更改。