本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
自訂模型的運作方式
使用 Amazon SageMaker Canvas 在您匯入的資料集上建置自訂模型。使用您建置的模型,對新資料進行預測。 SageMaker Canvas 會使用資料集中的資訊來建置最多 250 個模型,並選擇效能最佳的模型。
開始建立模型時,Canvas 會自動建議一個或多個模型類型。模型類型屬於下列其中一種類別:
-
數值預測 — 這在機器學習中稱為迴歸。當您要預測數值資料時,請使用數值預測模型類型。例如,您可能想要根據房屋的平方英尺等功能來預測房價。
-
分類預測 — 這在機器學習中稱為分類。當您要將資料分類為群組時,請使用分類預測模型類型:
-
2 類別預測 — 當您有兩個要預測資料的類別時,請使用 2 類別預測模型類型 (在機器學習中也稱為二進制分類)。例如您可能想要判斷客戶是否可能流失。
-
3+ 類別預測 — 當您有三個以上要預測資料的類別時,請使用 3+ 類別預測模型類型 (在機器學習中也稱為多類別分類)。例如,您可能想要根據先前付款等功能來預測客戶的貸款狀態。
-
-
時間序列預測 — 當您想要預測一段時間內的狀況時,請使用時間序列預測。例如,您可能想要預測下一季出售的物品數量。如需時間序列預測的相關資訊,請參閱 Amazon SageMaker Canvas 中的時間序列預測。
-
影像預測 — 當您要為影像指派標籤時,請使用單一標籤影像預測模型類型 (在機器學習中也稱為單一標籤影像分類)。例如,您可能想要分類產品影像中不同類型的製造瑕疵。
-
文字預測 — 當您要將指派標籤給文字段落時,請使用多類文字預測模型類型 (在機器學習中也稱為多類別文字分類)。例如,您可能有產品的客戶評論資料集,並且您想要決定客戶是否喜歡或不喜歡該產品。您可能會讓模型預測指定的文字段落是
Positive
、Negative
或Neutral
。
如需每個模型類型支援之輸入資料類型的資料表,請參閱自訂模型。
針對您建立的每個表格式資料模型 (包括數值、分類、時間序列預測和文字預測模型),您可以選擇目標欄。目標欄是包含您要預測之資訊的資料欄。例如,如果您正在建立模型以預測人們是否已取消訂閱,則目標欄包含關於某人取消狀態為 yes
或 no
的資料點。
針對影像預測模型,您可以使用已指派標籤的影像資料集來建立模型。針對您提供的未標籤影像,模型會預測標籤。例如,如果您要建立模型來預測影像是貓還是狗,則您會在建置模型時會提供標示為貓或狗的影像。然後該模型可以接受未標籤的影像,並預測其為貓或狗。
建立模型時會出現的情況
若要建立模型,您可以選擇快速建置或標準建置。快速建置的建置時間較短,但標準建置的準確性通常更高。
對於表格式和時間序列預測模型,Canvas 使用縮減取樣來縮減大於 5 GB 或 30 GB 的資料集大小。使用分層取樣方法換算下取樣。下表依模型類型列出向下取樣的大小。若要控制取樣程序,您可以使用 Canvas 中的 Data Wrangler,以偏好的取樣技術進行取樣。對於時間序列資料,您可以重新取樣以彙總資料點。如需取樣的詳細資訊,請參閱 抽樣。如需重新取樣時間序列資料的詳細資訊,請參閱 重新取樣時間序列資料。
如果您選擇在超過 50,000 個資料列的資料集上進行快速建置,則 Canvas 會將您的資料抽樣到 50,000 個資料列,以縮短模型訓練時間。
下表摘要說明模型建置程序的關鍵特性,包括每種模型和建置類型的平均建置時間、使用大型資料集建置模型時的下樣本大小,以及每種建置類型應擁有的最小和最大資料點數量。
限制 | 數值和分類預測 | 時間序列預測 | 影像預測 | 文字預測 |
---|---|---|---|---|
快速建置時間 |
2 - 20 分鐘 |
2 - 20 分鐘 |
15 - 30 分鐘 |
15 - 30 分鐘 |
標準建置時間 |
2 - 4 小時 |
2 - 4 小時 |
2 - 5 小時 |
2 - 5 小時 |
下取樣大小 (Canvas 下取樣後大型資料集的縮減大小) |
5 GB |
30 GB |
N/A |
N/A |
快速建置的項目數下限 (列) |
2 個類別:500 列 3 個以上類別、數值、時間序列:N/A |
N/A |
N/A |
N/A |
標準建置的項目數下限 (列、影像或文件) |
250 |
50 |
50 |
N/A |
快速建置的項目數上限 (列、影像或文件) |
N/A |
N/A |
5000 |
7500 |
標準建置的項目數上限 (列、影像或文件) |
N/A |
150,000 |
180,000 |
N/A |
欄數上限 |
1,000 |
1,000 |
N/A |
N/A |
如果您在執行快速建置時登出,您的建置建可能會中斷,直到您再次登入為止。當您再次登入時,Canvas 會繼續快速建置。
Canvas 會透過使用在資料集其餘部分的資訊來預測值,取決於模型類型:
-
針對分類預測,Canvas 將每一列放入目標欄中列出的其中一個類別中。
-
針對數值預測,Canvas 會使用資料集中的資訊來預測目標欄中的數值。
-
針對時間序列預測,Canvas 使用歷史資料來預測未來的目標欄數值。
-
針對影像預測,Canvas 使用已指派標籤的影像來預測未標籤影像的標籤。
-
針對文字預測,Canvas 會分析已指派標籤的文字資料,以預測未標籤文字段落的標籤。
可協助您建置模型的其他功能
在建置模型之前,您可以使用 Canvas 中的 Data Wrangler,使用超過 300 個內建轉換和運算子來準備資料。Data Wrangler 支援表格和影像資料集的轉換。此外,您可以連線至 Canvas 外部的資料來源、建立任務以將轉換套用至整個資料集,以及匯出已完全準備和清理的資料,以便在 Canvas 外部的 ML 工作流程中使用。如需詳細資訊,請參閱資料準備。
若要查看視覺化和分析來探索資料,並判斷模型中要包含哪些功能,您可以使用 Data Wrangler 的內建分析。您也可以存取 Data Quality and Insights 報告,該報告強調資料集的潛在問題,並提供如何修正這些問題的建議。如需詳細資訊,請參閱執行探索性資料分析 (EDA)。
除了透過 Data Wrangler 提供的更進階資料準備和探索功能之外,Canvas 還提供了一些基本功能,您可以使用:
針對具有多個資料欄的表格式資料集 (例如用於建立分類、數值或時間序列預測模型類型的資料集),您可能會有遺失資料點的資料列。當 Canvas 建置模型時,它會自動新增缺少值。Canvas 會使用資料集中的值來執行缺少值的數學近似值。為了獲得最高的模型精確度,我們建議您在加入遺失資料中 (如果可以找到)。請注意,文字預測或影像預測模型不支援遺失資料功能。
開始使用
若要開始建置自訂模型,請參閱建立模型並遵循您要建置之模型類型的程序。