翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
エンドポイント設定を作成する
モデルを作成したら、エンドポイント設定を作成します。その後、エンドポイント設定の仕様を使用してモデルをデプロイできます。設定では、リアルタイムエンドポイントとサーバーレスエンドポイントのどちらを使用するかを指定します。サーバーレスエンドポイント設定を作成するには、Amazon SageMaker AI コンソール
エンドポイント設定を作成するには ( を使用API)
次の例では、 AWS SDK for Python (Boto3)
-
EndpointConfigName
では、エンドポイント設定の名前を選択します。名前は、リージョンのアカウント内で一意である必要があります。 -
(オプション) では
KmsKeyId
、使用する キーのキー ID、ARN AWS KMS キー ARN、エイリアス名、またはエイリアスを使用します。 SageMaker AI はこのキーを使用して Amazon ECRイメージを暗号化します。 -
ModelName
では、デプロイするモデルの名前を使用します。これは、「モデルを作成する」ステップで使用したものと同じモデルである必要があります。 -
ServerlessConfig
では-
MemorySizeInMB
を2048
に設定します。この例では、メモリサイズを 2048 MB に設定しますが、メモリサイズには 1024 MB、2048 MB、3072 MB、4096 MB、5120 MB、または 6144 MB のいずれかの値を選択できます。 -
MaxConcurrency
を20
に設定します。この例では、最大同時実行数を 20 に設定します。サーバーレスエンドポイントに設定できる同時呼び出しの最大数は 200 で、選択できる最小値は 1 です。 -
(オプション) プロビジョニングされた同時実行性を使用するには、
ProvisionedConcurrency
を 10 に設定します。この例では、プロビジョニングされた同時実行数を 10 に設定します。サーバーレスエンドポイントのProvisionedConcurrency
の数は、MaxConcurrency
以下である必要があります。オンデマンドのサーバーレス推論エンドポイントを使用する場合は、空のままにしておきます。プロビジョニング同時実行数は動的にスケーリングできます。詳細については、「サーバーレスエンドポイントのプロビジョニングされた同時実行の自動スケール」を参照してください。
-
response = client.create_endpoint_config( EndpointConfigName="
<your-endpoint-configuration>
", KmsKeyId="arn:aws:kms:us-east-1:123456789012:key/143ef68f-76fd-45e3-abba-ed28fc8d3d5e", ProductionVariants=[ { "ModelName": "<your-model-name>
", "VariantName": "AllTraffic", "ServerlessConfig": { "MemorySizeInMB": 2048, "MaxConcurrency": 20, "ProvisionedConcurrency": 10, } } ] )
エンドポイント設定を作成するには (コンソールを使用)
-
Amazon SageMaker AI コンソール
にサインインします。 -
[ナビゲーション] タブで、[Inference] (推論) を選択します。
-
次に、[Endpoint configurations] (エンドポイント設定) を選択します。
-
[Create endpoint configuration] (エンドポイント設定を作成) を選択します。
-
[Endpoint configuration name] (エンドポイント設定名) に、リージョンのアカウント内で一意の名前を入力します。
-
[エンドポイントのタイプ] で、[サーバーレス] を選択します。
-
[Production variants] (本番稼働用バリアント) で、[Add model] (モデルの追加) を選択します。
-
[Add model] (モデルの追加) で、モデルのリストから使用するモデルを選択し、[Save] (保存) を選択します。
-
モデルを追加したら、[Actions] (アクション)で、[Edit] (編集) を選択します。
-
[Memory size] (メモリサイズ)で、必要なメモリサイズを GB 単位で選択します。
-
[Max Concurrency] (最大同時実行数)に、エンドポイントの目的とする最大同時呼び出し数を入力します。入力できる最大値は 200、最小値は 1 です。
-
(オプション) プロビジョニングされた同時実行性を使用するには、[プロビジョニングされた同時実行数の設定] フィールドに必要な同時呼び出し数を入力します。プロビジョニングされた同時呼び出しの数は、最大同時呼び出し数以下である必要があります。
-
[Save] を選択します。
-
(オプション) エンドポイント設定のメタデータを作成する場合は、[Tags] (タグ) にキーバリューペアを入力します。
-
[Create endpoint configuration] (エンドポイント設定を作成) を選択します。