エンドポイント設定を作成する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

エンドポイント設定を作成する

モデルを作成したら、エンドポイント設定を作成します。その後、エンドポイント設定の仕様を使用してモデルをデプロイできます。設定では、リアルタイムエンドポイントとサーバーレスエンドポイントのどちらを使用するかを指定します。サーバーレスエンドポイント設定を作成するには、Amazon SageMaker コンソール 、、CreateEndpointConfigAPIまたは を使用できます AWS CLI。API および コンソールのアプローチについては、以下のセクションで説明します。

エンドポイント設定を作成するには ( を使用API)

次の例では、 AWS SDK for Python (Boto3) を使用して CreateEndpointConfig を呼び出しますAPI。次の値を指定します。

  • EndpointConfigName では、エンドポイント設定の名前を選択します。名前は、リージョンのアカウント内で一意である必要があります。

  • (オプション) ではKmsKeyId、使用するキーのキー ID、キー ARN、エイリアス名、またはエイリアスARN AWS KMS を使用します。 はこのキー SageMaker を使用して Amazon ECRイメージを暗号化します。

  • ModelName では、デプロイするモデルの名前を使用します。これは、「モデルを作成する」ステップで使用したものと同じモデルである必要があります。

  • ServerlessConfig では

    • MemorySizeInMB2048 に設定します。この例では、メモリサイズを 2048 MB に設定しますが、メモリサイズには 1024 MB、2048 MB、3072 MB、4096 MB、5120 MB、または 6144 MB のいずれかの値を選択できます。

    • MaxConcurrency20 に設定します。この例では、最大同時実行数を 20 に設定します。サーバーレスエンドポイントに設定できる同時呼び出しの最大数は 200 で、選択できる最小値は 1 です。

    • (オプション) プロビジョニングされた同時実行性を使用するには、ProvisionedConcurrency を 10 に設定します。この例では、プロビジョニングされた同時実行数を 10 に設定します。サーバーレスエンドポイントの ProvisionedConcurrency の数は、MaxConcurrency 以下である必要があります。オンデマンドのサーバーレス推論エンドポイントを使用する場合は、空のままにしておきます。プロビジョニング同時実行数は動的にスケーリングできます。詳細については、「サーバーレスエンドポイントのプロビジョニングされた同時実行の自動スケール」を参照してください。

response = client.create_endpoint_config( EndpointConfigName="<your-endpoint-configuration>", KmsKeyId="arn:aws:kms:us-east-1:123456789012:key/143ef68f-76fd-45e3-abba-ed28fc8d3d5e", ProductionVariants=[ { "ModelName": "<your-model-name>", "VariantName": "AllTraffic", "ServerlessConfig": { "MemorySizeInMB": 2048, "MaxConcurrency": 20, "ProvisionedConcurrency": 10, } } ] )

エンドポイント設定を作成するには (コンソールを使用)

  1. Amazon SageMaker コンソール にサインインします。

  2. [ナビゲーション] タブで、[Inference] (推論) を選択します。

  3. 次に、[Endpoint configurations] (エンドポイント設定) を選択します。

  4. [Create endpoint configuration] (エンドポイント設定を作成) を選択します。

  5. [Endpoint configuration name] (エンドポイント設定名) に、リージョンのアカウント内で一意の名前を入力します。

  6. [エンドポイントのタイプ] で、[サーバーレス] を選択します。

    コンソールのエンドポイントタイプオプションのスクリーンショット。
  7. [Production variants] (本番稼働用バリアント) で、[Add model] (モデルの追加) を選択します。

  8. [Add model] (モデルの追加) で、モデルのリストから使用するモデルを選択し、[Save] (保存) を選択します。

  9. モデルを追加したら、[Actions] (アクション)で、[Edit] (編集) を選択します。

  10. [Memory size] (メモリサイズ)で、必要なメモリサイズを GB 単位で選択します。

    コンソールのメモリサイズオプションのスクリーンショット。
  11. [Max Concurrency] (最大同時実行数)に、エンドポイントの目的とする最大同時呼び出し数を入力します。入力できる最大値は 200、最小値は 1 です。

  12. (オプション) プロビジョニングされた同時実行性を使用するには、[プロビジョニングされた同時実行数の設定] フィールドに必要な同時呼び出し数を入力します。プロビジョニングされた同時呼び出しの数は、最大同時呼び出し数以下である必要があります。

  13. [Save] を選択します。

  14. (オプション) エンドポイント設定のメタデータを作成する場合は、[Tags] (タグ) にキーバリューペアを入力します。

  15. [Create endpoint configuration] (エンドポイント設定を作成) を選択します。