本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
預覽模型
注意
下列功能僅適用於使用表格式資料集建置的自訂模型。也會排除多類別文字預測模型。
SageMaker Canvas 為您提供了在開始構建之前預覽模型和驗證數據的工具。下列功能包括預覽模型的準確性、驗證資料集以避免在建立模型時發生問題,以及變更模型的隨機範例大小。
預覽模型
使用 Amazon SageMaker Canvas,您可以選擇預覽模型,在建立模型之前從資料中取得深入解析。例如,您可以查看每個資料欄中的資料是如何分佈的。對於使用分類資料建立的模型,您也可以選擇預覽模型來產生模型分析資料的預估準確度預測。快速建置或標準建置的精確度代表模型在實際資料上的執行效能,而且通常高於預估準確度。
Amazon SageMaker Canvas 會在建立模型時自動處理資料集中遺失的值。它會使用存在於資料集中的相鄰值推斷缺少值。
驗證資料
在構建模型之前, SageMaker Canvas 會檢查您的數據集是否存在可能導致構建失敗的問題。如果 SageMaker Canvas 發現任何問題,則在您嘗試構建模型之前,它會在「構建」頁面上發出警告。
您可以選擇驗證資料以查看資料集中的問題清單。然後,您可以使用 SageMaker Canvas 資料準備功能或您自己的工具,在開始組建之前修復資料集。如果您未修正資料集的問題,則建置將會失敗。
如果您變更資料集以修正問題,則可以選擇在嘗試建置之前重新驗證資料集。建議您在建置之前重新驗證資料集。
下表顯示 SageMaker Canvas 在資料集中檢查的問題以及如何解決這些問題。
問題 | 解析度 |
---|---|
資料的模型類型錯誤 |
請嘗試其他模型類型或使用不同的資料集。 |
目標欄中缺少值 |
取代缺少值、刪除缺少值的資料列,或使用不同的資料集。 |
目標欄中有太多唯一標籤 |
確認您已為目標欄使用正確的資料欄,或使用不同的資料集。 |
目標欄中有太多非數值 |
選擇不同的目標欄、選取其他模型類型,或使用不同的資料集。 |
一個或多個資料欄名稱包含兩個底線 |
重新命名資料欄,移除任何兩個底線,然後再試一次。 |
資料集中的任何資料列都不完整 |
取代缺少值,或使用不同的資料集。 |
資料中的列數有太多唯一的標籤 |
檢查您使用的是正確的目標欄、增加資料集中的列數、合併類似的標籤,或使用不同的資料集。 |
隨機抽樣
SageMaker Canvas 使用隨機取樣方法來取樣資料集。隨機抽樣方法意味著每一列都有相同的機會被採樣。您可以在預覽中選擇資料欄以獲取隨機抽樣的總結統計,例如均值和模式。
根據預設, SageMaker Canvas 會針對資料列超過 20,000 個資料列的資料集使用隨機抽樣大小 (大小為 20,000 列)。之對小於 20,000 列的資料集,預設抽樣大小是資料集中的列數。您可以在 SageMaker Canvas 應用程式的 [建置] 索引標籤中選擇 [隨機樣本],以增加或減少樣本大小。您可以使用滑桿選取所需的取樣大小,然後選擇更新以變更取樣大小。您可以針對一個資料集選擇的最大取樣大小為 40,000 列,最小範例大小為 500 列。如果您選擇較大的取樣大小,則資料集預覽和總結統計資料可能需要一些時間才能重新載入。
建置頁面會顯示資料集中 100 列的預覽。如果取樣大小與您的資料集大小相同,則預覽會使用資料集的前 100 列。否則,預覽會使用隨機抽樣的前 100 列。