本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用須知
使用 CREATE MODEL 時,請考量下列事項。
-
CREATE MODEL 陳述式會以非同步模式運作,並在將訓練資料匯出至 Amazon S3 時傳回。在 Amazon SageMaker AI 中訓練的其餘步驟會在背景進行。訓練正在進行中時,對應的推論函數會顯示,但無法執行。您可以查詢 STV_ML_MODEL_INFO 以查看訓練狀態。
-
根據預設,在自動模式中,訓練最多可在背景執行 90 分鐘,而且可以延長。若要取消訓練,只要執行 DROP MODEL 命令即可。
-
您用來建立模型的 Amazon Redshift 叢集,以及用來暫存訓練資料和模型成品的 Amazon S3 儲存貯體必須位於相同 AWS 區域。
-
在模型訓練期間,Amazon Redshift 和 SageMaker AI 會將中繼成品存放在您提供的 Amazon S3 儲存貯體中。根據預設,Amazon Redshift 會在 CREATE MODEL 操作結束時執行垃圾回收。Amazon Redshift 會從 Amazon S3 中移除這些物件。若要將這些成品保留在 Amazon S3 上,請設定 S3_GARBAGE COLLECT OFF 選項。
-
您必須在 FROM 子句中提供的訓練資料中使用至少 500 個資料列。
-
使用 CREATE MODEL 陳述式時,您最多只能在 FROM { table_name | ( select_query ) } 子句中指定 256 個特徵 (輸入) 資料欄。
-
若是 AUTO ON,您可以用來做為訓練集的資料欄類型為 SMALLINT、INTEGER、BIGINT、DECIMAL、REAL、DOUBLE、BOOLEAN、CHAR、VARCHAR、DATE、TIME、TIMETZ、TIMESTAMP 和 TIMESTAMPTZ。若是 AUTO OFF,您可以用來做為訓練集的資料欄類型為 SMALLINT、INTEGER、BIGINT、DECIMAL、REAL、DOUBLE 和 BOOLEAN。
-
您不能使用 DECIMAL、DATE、TIME、TIMETZ、TIMESTAMP、TIMESTAMPTZ、GEOMETRY、GEOGRAPHY、HLLSKETCH、SUPER 或 VARBYTE 做為目標資料欄類型。
-
若要改善模型精確度,請執行下列其中一項操作:
-
當您在 FROM 子句中指定訓練資料時,在 CREATE MODEL 命令中盡可能多新增相關資料欄。
-
使用較大的值做為 MAX_RUNTIME 和 MAX_CELLS。此參數的值越大,訓練模型的成本也會增加。
-
-
只要計算訓練資料並將其匯出至 Amazon S3 儲存貯體,就會立即傳回 CREATE MODEL 陳述式執行。在此之後,您可以使用 SHOW MODEL 命令檢查訓練的狀態。在背景訓練的模型失敗時,您可以使用 SHOW MODEL 來檢查錯誤。您無法重試失敗的模型。使用 DROP MODEL 可移除失敗的模型並重新建立新模型。如需 SHOW MODEL 的相關資訊,請參閱 SHOW MODEL。
-
本機 BYOM 支援 Amazon Redshift ML 在非 BYOM 案例中支援的同類型模型。Amazon Redshift 支援純 XGBoost (使用 XGBoost 1.0 版或更新版本)、不含預處理器的 KMEANS 模型,以及由 Amazon SageMaker AI Autopilot 訓練的 XGBOOST/MLP/Linear學習程式模型。它使用 Autopilot 指定的預處理器支援後者,Amazon SageMaker AI Neo 也支援這些預處理器。
-
如果您的 Amazon Redshift 叢集已啟用虛擬私有雲端 (VPC) 的增強型路由,請務必為叢集所在的 VPC 建立 Amazon S3 VPC 端點和 SageMaker AI VPC 端點。這樣做可在 CREATE MODEL 期間,讓流量在這些服務之間通過您的 VPC。如需詳細資訊,請參閱 SageMaker AI Clarify 任務 Amazon VPC 子網路和安全群組。