使用 為文字分類建立 AutoML 任務 API - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 為文字分類建立 AutoML 任務 API

下列指示說明如何使用 SageMaker API參考 建立 Amazon SageMaker Autopilot 任務作為文字分類問題類型的試驗實驗。

注意

文字和影像分類、時間序列預測和大型語言模型微調等任務,都只能透過 AutoML 的第 REST API2 版取得。如果您選擇的語言是 Python,您可以SDK直接參考 AWS SDK for Python (Boto3)或 Amazon SageMaker Python 的 AutoMLV2 物件

偏好使用者介面便利性的使用者可以使用 Amazon SageMaker Canvas 存取預先訓練的模型和生成 AI 基礎模型,或建立自訂模型,以針對特定文字、影像分類、預測需求或生成 AI 量身打造。

您可以透過以 Amazon Autopilot 或 支援的任何語言呼叫CreateAutoMLJobV2API動作,以程式設計方式建立 SageMaker Autopilot 文字分類實驗 AWS CLI。

如需有關此API動作如何轉換為所選語言函數的資訊,請參閱 的另請參閱 一節CreateAutoMLJobV2並選擇 SDK。例如,對於 Python 使用者,請參閱 AWS SDK for Python (Boto3)中 create_auto_ml_job_v2 的完整要求語法。

以下是文字分類中所用CreateAutoMLJobV2API動作的必要和選用輸入請求參數集合。

必要參數

呼叫 CreateAutoMLJobV2 以建立一個文字分類的 Autopilot 實驗時,您必須提供下方的值:

所有其他參數都是選用參數。

選用的參數

以下各章節提供一些選用參數的詳細資訊,您可以將這些參數傳遞至您的文字分類 AutoML 任務。

您可以提供自己的驗證資料集和自訂資料分割比例,或讓 Autopilot 自動分割資料集。

每個AutoMLJobChannel物件 (請參閱必要的參數 AutoMLJobInputDataConfig ) 都有 ChannelType,可設定為 trainingvalidation值,指定建置機器學習模型時如何使用資料。

至少必須提供一個資料來源,最多允許兩個資料來源:一個用於訓練資料,另一個用於驗證資料。將資料分割為訓練和驗證資料集的方式,取決於您有一個或兩個資料來源。

將資料分割為訓練和驗證資料集的方式,取決於您有一個或兩個資料來源。

  • 如果您只有一個資料來源,則ChannelType依預設會將其設定為training,且必須具有此值。

    • 如果未設定 AutoMLDataSplitConfig 中的 ValidationFraction 值,則預設會使用來自此來源的 0.2 (20%) 資料進行驗證。

    • 如果設定ValidationFraction為介於 0 和 1 之間的值,則會根據指定的值來分割資料集,其中值會指定用於驗證的資料集分數。

  • 如果您有兩個資料來源,則必須將其中一個AutoMLJobChannel物件的ChannelType設定為training,即預設值。其他資料來源的ChannelType必須設定為validation。這兩個資料來源必須具有相同的格式,或 CSV Parquet,以及相同的結構描述。在這種情況下,您不得設定ValidationFraction的值,因為每個來源的所有資料都會用於訓練或驗證。設定此值會導致錯誤。

若要針對 AutoML 工作的最佳模型候選項目啟用自動部署,請在 AutoML 工作請求中包含 ModelDeployConfig。這將允許將最佳模型部署到 SageMaker 端點。以下是可用的自訂組態。