翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
API を使用してテキスト分類用の AutoML ジョブを作成する
次の手順は、Amazon SageMaker SageMaker Autopilot ジョブを作成する方法を示しています。 https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-reference.html
注記
テキストと画像の分類、時系列予測、大規模言語モデルのファインチューニングなどのタスクは、AutoML REST API のバージョン 2 でのみ利用できます。選択した言語が Python の場合は、AWS SDK for Python (Boto3)
ユーザーインターフェイスの利便性を優先するユーザーは、Amazon SageMaker Canvas を使用して、事前にトレーニングされたモデルや生成 AI 基盤モデルにアクセスしたり、特定のテキスト、画像分類、予測のニーズ、または生成 AI に合わせたカスタムモデルを作成したりできます。
Amazon SageMaker Autopilot または AWS CLIでサポートされる任意の言語で CreateAutoMLJobV2
API アクションを呼び出すことで、Autopilot のテキスト分類実験をプログラムで作成できます。
この API アクションが選択した言語の関数にどのように変換されるかについては、「CreateAutoMLJobV2
」の「関連項目」セクションを参照して SDK を選択してください。例として、Python ユーザーの場合は、「 AWS SDK for Python (Boto3)」の「create_auto_ml_job_v2
のすべてのリクエスト構文」を参照してください。
以下は、テキスト分類に使用される CreateAutoMLJobV2
API アクションの必須およびオプションの入力リクエストパラメータをまとめたものです。
必須パラメータ
CreateAutoMLJobV2
を呼び出してテキスト分類用の Autopilot 実験を作成するには、次の値を指定する必要があります。
-
ジョブの名前を指定する
AutoMLJobName
。 -
データソースを指定するための
AutoMLJobInputDataConfig
のうち、少なくとも 1 つのAutoMLJobChannel
。 -
AutoML ジョブのアーティファクトを保存する Amazon S3 出力パスを指定する
OutputDataConfig
。 -
データへのアクセスに使用されるロールの ARN を指定する
RoleArn
。
その他のすべてのパラメータは省略可能です。
任意指定のパラメータ
次のセクションでは、テキスト分類 AutoML ジョブに渡すことができるいくつかのオプションパラメータについて詳しく説明します。
独自の検証データセットとカスタムデータの分割比率を指定することも、Autopilot にデータセットを自動的に分割させることもできます。
各 AutoMLJobChannel
オブジェクト (必須パラメータ「AutoMLJobInputDataConfig」を参照) には ChannelType
があり、training
値または validation
値に設定することで、機械学習モデルを構築するときにデータをどのように使用するかを指定できます。
少なくとも 1 つのデータソースを指定する必要があり、最大 2 つのデータソースを指定できます。1 つはトレーニングデータ用、もう 1 つは検証データ用です。データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。
データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。
-
データソースが 1 つのみである場合、
ChannelType
はデフォルトでtraining
に設定され、この値を持つ必要があります。-
AutoMLDataSplitConfig
のValidationFraction
値を設定しないと、このソースのデータの 0.2 (20%) がデフォルトで検証に使用されます。 -
ValidationFraction
を 0 から 1 の間の値に設定すると、データセットは指定した値に基づいて分割されます。この値は、検証に使用されるデータセットの割合を指定します。
-
-
データソースが 2 つである場合は、
AutoMLJobChannel
オブジェクトの 1 つのChannelType
をtraining
(デフォルト値) に設定する必要があります。他のデータソースのChannelType
はvalidation
に設定する必要があります。2 つのデータソースは、同じ形式 (CSV または Parquet) と同じスキーマを持つ必要があります。この場合、ValidationFraction
の値を設定してはいけません。各ソースのすべてのデータがトレーニングまたは検証に使用されるためです。この値を設定すると、エラーが発生します。
AutoML ジョブの最適なモデル候補の自動デプロイを有効にするには、AutoML ジョブリクエストに ModelDeployConfig
を含めます。これにより、最適なモデルを SageMaker AI エンドポイントにデプロイできます。カスタマイズできる設定は以下のとおりです。
-
Autopilot にエンドポイント名を生成させるには、
AutoGenerateEndpointName
をTrue
に設定します。 -
エンドポイントに独自の名前を指定するには、
AutoGenerateEndpointName to
を設定します。False
and provide a name of your choice in EndpointName