隨機抽樣 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

隨機抽樣

SageMaker Canvas 使用隨機取樣方法來取樣資料集。隨機抽樣方法意味著每一列都有相同的機會被採樣。您可以在預覽中選擇資料欄以獲取隨機抽樣的總結統計,例如均值和模式。

根據預設, SageMaker Canvas 會從資料集使用 20,000 個資料列的隨機樣本數,用於超過 20,000 個資料列的資料集。之對小於 20,000 列的資料集,預設抽樣大小是資料集中的列數。您可以在 SageMaker Canvas 應用程式的建置索引標籤中選擇隨機範例,以增加或減少樣本數。您可以使用滑桿選取所需的取樣大小,然後選擇更新以變更取樣大小。您可以針對一個資料集選擇的最大取樣大小為 40,000 列,最小範例大小為 500 列。如果您選擇較大的取樣大小,則資料集預覽和總結統計資料可能需要一些時間才能重新載入。

建置頁面會顯示資料集中 100 列的預覽。如果取樣大小與您的資料集大小相同,則預覽會使用資料集的前 100 列。否則,預覽會使用隨機抽樣的前 100 列。