本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 為文字分類建立 AutoML 任務 API
下列指示說明如何使用 SageMaker API參考 建立 Amazon SageMaker Autopilot 任務作為文字分類問題類型的試驗實驗。
注意
文字和影像分類、時間序列預測和大型語言模型微調等任務,都只能透過 AutoML 的第 REST API2 版取得。如果您選擇的語言是 Python,您可以SDK直接參考 AWS SDK for Python (Boto3)
偏好使用者介面便利性的使用者可以使用 Amazon SageMaker Canvas 存取預先訓練的模型和生成 AI 基礎模型,或建立自訂模型,以針對特定文字、影像分類、預測需求或生成 AI 量身打造。
您可以透過以 Amazon Autopilot 或 支援的任何語言呼叫CreateAutoMLJobV2
API動作,以程式設計方式建立 SageMaker Autopilot 文字分類實驗 AWS CLI。
如需有關此API動作如何轉換為所選語言函數的資訊,請參閱 的另請參閱 一節CreateAutoMLJobV2
並選擇 SDK。例如,對於 Python 使用者,請參閱 AWS SDK for Python (Boto3)中 create_auto_ml_job_v2
的完整要求語法。
以下是文字分類中所用CreateAutoMLJobV2
API動作的必要和選用輸入請求參數集合。
必要參數
呼叫 CreateAutoMLJobV2
以建立一個文字分類的 Autopilot 實驗時,您必須提供下方的值:
-
用
AutoMLJobName
來指定任務的名稱。 -
至少有一個
AutoMLJobInputDataConfig
中的AutoMLJobChannel
來指定您的資料來源。 -
OutputDataConfig
,指定 Amazon S3 輸出路徑,以儲存 AutoML 任務的成品。 -
RoleArn
指定用於存取資料之角色ARN的 。
所有其他參數都是選用參數。
選用的參數
以下各章節提供一些選用參數的詳細資訊,您可以將這些參數傳遞至您的文字分類 AutoML 任務。
您可以提供自己的驗證資料集和自訂資料分割比例,或讓 Autopilot 自動分割資料集。
每個AutoMLJobChannel
物件 (請參閱必要的參數 AutoMLJobInputDataConfig ) 都有 ChannelType
,可設定為 training
或 validation
值,指定建置機器學習模型時如何使用資料。
至少必須提供一個資料來源,最多允許兩個資料來源:一個用於訓練資料,另一個用於驗證資料。將資料分割為訓練和驗證資料集的方式,取決於您有一個或兩個資料來源。
將資料分割為訓練和驗證資料集的方式,取決於您有一個或兩個資料來源。
-
如果您只有一個資料來源,則
ChannelType
依預設會將其設定為training
,且必須具有此值。-
如果未設定
AutoMLDataSplitConfig
中的ValidationFraction
值,則預設會使用來自此來源的 0.2 (20%) 資料進行驗證。 -
如果設定
ValidationFraction
為介於 0 和 1 之間的值,則會根據指定的值來分割資料集,其中值會指定用於驗證的資料集分數。
-
-
如果您有兩個資料來源,則必須將其中一個
AutoMLJobChannel
物件的ChannelType
設定為training
,即預設值。其他資料來源的ChannelType
必須設定為validation
。這兩個資料來源必須具有相同的格式,或 CSV Parquet,以及相同的結構描述。在這種情況下,您不得設定ValidationFraction
的值,因為每個來源的所有資料都會用於訓練或驗證。設定此值會導致錯誤。
若要針對 AutoML 工作的最佳模型候選項目啟用自動部署,請在 AutoML 工作請求中包含 ModelDeployConfig
。這將允許將最佳模型部署到 SageMaker 端點。以下是可用的自訂組態。
-
若要讓 Autopilot 產生端點名稱,請將
AutoGenerateEndpointName
設定為True
。 -
若要提供您的端點名稱,請設定
AutoGenerateEndpointName to
。False
and provide a name of your choice in EndpointName