使用為文字分類建立 AutoML 任務 API

下列指示說明如何使用 SageMaker API參考建立 Amazon SageMaker Autopilot 任務作為文字分類問題類型的試驗實驗。

注意

文字和影像分類、時間序列預測和大型語言模型微調等任務，都只能透過 AutoML 的第 REST API2 版取得。如果您選擇的語言是 Python，您可以SDK直接參考 AWS SDK for Python (Boto3)或 Amazon SageMaker Python 的 AutoMLV2 物件。

偏好使用者介面便利性的使用者可以使用 Amazon SageMaker Canvas 存取預先訓練的模型和生成 AI 基礎模型，或建立自訂模型，以針對特定文字、影像分類、預測需求或生成 AI 量身打造。

您可以透過以 Amazon Autopilot 或支援的任何語言呼叫CreateAutoMLJobV2API動作，以程式設計方式建立 SageMaker Autopilot 文字分類實驗 AWS CLI。

如需有關此API動作如何轉換為所選語言函數的資訊，請參閱的另請參閱一節CreateAutoMLJobV2並選擇 SDK。例如，對於 Python 使用者，請參閱 AWS SDK for Python (Boto3)中 create_auto_ml_job_v2 的完整要求語法。

以下是文字分類中所用CreateAutoMLJobV2API動作的必要和選用輸入請求參數集合。

必要參數

呼叫 CreateAutoMLJobV2 以建立一個文字分類的 Autopilot 實驗時，您必須提供下方的值：

用 AutoMLJobName 來指定任務的名稱。
至少有一個 AutoMLJobInputDataConfig 中的 AutoMLJobChannel 來指定您的資料來源。
類型 TextClassificationJobConfig 的 AutoMLProblemTypeConfig。
OutputDataConfig，指定 Amazon S3 輸出路徑，以儲存 AutoML 任務的成品。
RoleArn 指定用於存取資料之角色ARN的。

所有其他參數都是選用參數。

選用的參數

以下各章節提供一些選用參數的詳細資訊，您可以將這些參數傳遞至您的文字分類 AutoML 任務。

您可以提供自己的驗證資料集和自訂資料分割比例，或讓 Autopilot 自動分割資料集。

每個AutoMLJobChannel物件（請參閱必要的參數 AutoMLJobInputDataConfig ）都有 ChannelType，可設定為 training或 validation值，指定建置機器學習模型時如何使用資料。

至少必須提供一個資料來源，最多允許兩個資料來源：一個用於訓練資料，另一個用於驗證資料。將資料分割為訓練和驗證資料集的方式，取決於您有一個或兩個資料來源。

將資料分割為訓練和驗證資料集的方式，取決於您有一個或兩個資料來源。

如果您只有一個資料來源，則ChannelType依預設會將其設定為training，且必須具有此值。
- 如果未設定 AutoMLDataSplitConfig 中的 ValidationFraction 值，則預設會使用來自此來源的 0.2 (20%) 資料進行驗證。
- 如果設定ValidationFraction為介於 0 和 1 之間的值，則會根據指定的值來分割資料集，其中值會指定用於驗證的資料集分數。
如果您有兩個資料來源，則必須將其中一個AutoMLJobChannel物件的ChannelType設定為training，即預設值。其他資料來源的ChannelType必須設定為validation。這兩個資料來源必須具有相同的格式，或 CSV Parquet，以及相同的結構描述。在這種情況下，您不得設定ValidationFraction的值，因為每個來源的所有資料都會用於訓練或驗證。設定此值會導致錯誤。

若要針對 AutoML 工作的最佳模型候選項目啟用自動部署，請在 AutoML 工作請求中包含 ModelDeployConfig。這將允許將最佳模型部署到 SageMaker 端點。以下是可用的自訂組態。

若要讓 Autopilot 產生端點名稱，請將 AutoGenerateEndpointName 設定為 True。
若要提供您的端點名稱，請設定 AutoGenerateEndpointName to False and provide a name of your choice in EndpointName。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

模型效能報告

資料集格式和目標指標

使用 為文字分類建立 AutoML 任務 API

注意

必要參數

選用的參數

使用為文字分類建立 AutoML 任務 API