API を使用してテキスト分類用の AutoML ジョブを作成する - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

API を使用してテキスト分類用の AutoML ジョブを作成する

次の手順は、Amazon SageMaker SageMaker Autopilot ジョブを作成する方法を示しています。 https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-reference.html

注記

テキストと画像の分類、時系列予測、大規模言語モデルのファインチューニングなどのタスクは、AutoML REST API のバージョン 2 でのみ利用できます。選択した言語が Python の場合は、AWS SDK for Python (Boto3) を参照することも、Amazon SageMaker Python SDK の AutoMLV2 オブジェクトを直接参照することもできます。

ユーザーインターフェイスの利便性を優先するユーザーは、Amazon SageMaker Canvas を使用して、事前にトレーニングされたモデルや生成 AI 基盤モデルにアクセスしたり、特定のテキスト、画像分類、予測のニーズ、または生成 AI に合わせたカスタムモデルを作成したりできます。

Amazon SageMaker Autopilot または AWS CLIでサポートされる任意の言語で CreateAutoMLJobV2 API アクションを呼び出すことで、Autopilot のテキスト分類実験をプログラムで作成できます。

この API アクションが選択した言語の関数にどのように変換されるかについては、「CreateAutoMLJobV2」の「関連項目」セクションを参照して SDK を選択してください。例として、Python ユーザーの場合は、「 AWS SDK for Python (Boto3)」の「create_auto_ml_job_v2 のすべてのリクエスト構文」を参照してください。

以下は、テキスト分類に使用される CreateAutoMLJobV2 API アクションの必須およびオプションの入力リクエストパラメータをまとめたものです。

必須パラメータ

CreateAutoMLJobV2 を呼び出してテキスト分類用の Autopilot 実験を作成するには、次の値を指定する必要があります。

その他のすべてのパラメータは省略可能です。

任意指定のパラメータ

次のセクションでは、テキスト分類 AutoML ジョブに渡すことができるいくつかのオプションパラメータについて詳しく説明します。

独自の検証データセットとカスタムデータの分割比率を指定することも、Autopilot にデータセットを自動的に分割させることもできます。

AutoMLJobChannel オブジェクト (必須パラメータ「AutoMLJobInputDataConfig」を参照) には ChannelType があり、training 値または validation 値に設定することで、機械学習モデルを構築するときにデータをどのように使用するかを指定できます。

少なくとも 1 つのデータソースを指定する必要があり、最大 2 つのデータソースを指定できます。1 つはトレーニングデータ用、もう 1 つは検証データ用です。データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。

データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。

  • データソースが 1 つのみである場合、ChannelType はデフォルトで training に設定され、この値を持つ必要があります。

    • AutoMLDataSplitConfigValidationFraction 値を設定しないと、このソースのデータの 0.2 (20%) がデフォルトで検証に使用されます。

    • ValidationFraction を 0 から 1 の間の値に設定すると、データセットは指定した値に基づいて分割されます。この値は、検証に使用されるデータセットの割合を指定します。

  • データソースが 2 つである場合は、AutoMLJobChannel オブジェクトの 1 つの ChannelTypetraining (デフォルト値) に設定する必要があります。他のデータソースの ChannelTypevalidation に設定する必要があります。2 つのデータソースは、同じ形式 (CSV または Parquet) と同じスキーマを持つ必要があります。この場合、ValidationFraction の値を設定してはいけません。各ソースのすべてのデータがトレーニングまたは検証に使用されるためです。この値を設定すると、エラーが発生します。

AutoML ジョブの最適なモデル候補の自動デプロイを有効にするには、AutoML ジョブリクエストに ModelDeployConfig を含めます。これにより、最適なモデルを SageMaker AI エンドポイントにデプロイできます。カスタマイズできる設定は以下のとおりです。