編輯資料流程取樣組態 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

編輯資料流程取樣組態

將表格式資料匯入 Data Wrangler 資料流程時,您可以選擇取得資料集的範例,以加速資料探索和清理程序。在資料集的樣本上執行探索性轉換通常比在整個資料集上執行轉換更快,而且當您準備好匯出資料集並建置模型時,您可以將轉換套用至完整資料集。

Canvas 支援下列取樣方法:

  • FirstK – Canvas 會從資料集中選取第一個 K 項目,其中 K 是您指定的數字。此取樣方法很簡單,但如果您的資料集不是隨機排序,則可能會導致偏差。

  • 隨機 – Canvas 會隨機從資料集中選取項目,每個項目的選取機率相等。此取樣方法有助於確保範例可代表整個資料集。

  • 分層 – Canvas 會根據一或多個屬性 (例如年齡和收入等級),將資料集分成群組 (或分層 )。然後,從每個群組中隨機選取一定數量的項目。此方法可確保在範例中充分呈現所有相關子群組。

您可以隨時編輯取樣組態,以變更用於資料探索的樣本大小。

若要變更取樣組態,請執行下列動作:

  1. 在資料流程圖中,選取資料來源節點。

  2. 選擇底部導覽列上的取樣

  3. 取樣對話方塊隨即開啟。在取樣方法下拉式清單中,選取所需的取樣方法。

  4. 針對最大樣本數 ,輸入您要取樣的列數。

  5. 選擇 Update (更新) 以儲存您的設定。

現在應套用對取樣組態的變更。