マルチモデルエンドポイントを呼び出す

マルチモデルエンドポイントを呼び出すには、1 つの変更で単一のモデルエンドポイントを呼び出すのと同じように、 SageMaker ランタイムinvoke_endpointからを使用します。エンドポイントのどのモデルをターゲットにするかを指定する新しい TargetModel パラメータを渡します。 SageMaker Runtime InvokeEndpointリクエストは、呼び出し用に指定されたモデルの相対パスを取得する新しいヘッダーX-Amzn-SageMaker-Target-Modelとしてをサポートします。 SageMaker システムは、CreateModelAPI呼び出しの一部として提供されるプレフィックスをモデルの相対パスと組み合わせることで、モデルの絶対パスを構築します。

以下の手順は、 CPUと GPUの両方のバックアップされたマルチモデルエンドポイントで同じです。

マルチモデルエンドポイントは、必要に応じてターゲットモデルを動的にロードします。これは、単一のエンドポイントの背後にホストされている複数のターゲットモデルに対してランダムな呼び出しを繰り返すため、MMEサンプルノートブックを実行するときに確認できます。特定のモデルに対する最初のリクエストには時間がかかります。これは、モデルを Amazon Simple Storage Service (Amazon S3) からダウンロードしてメモリにロードする必要があるためですこれは「コールドスタート」と呼ばれ、マルチモデルエンドポイントでは顧客のコストパフォーマンスが向上するように最適化されることが期待されます。モデルのロード後は追加のオーバーヘッドがないため、後続の呼び出しはより速く終了します。

注記

GPU バックアップされたインスタンスの場合、GPUコンテナからの 507 のHTTPレスポンスコードは、メモリやその他のリソースが不足していることを示します。これにより、使用頻度の高いモデルを読み込むために、未使用のモデルがコンテナからアンロードされます。

エラーの ModelNotReadyException再試行リクエスト

モデルに対して初めて invoke_endpoint を呼び出す場合、モデルは Amazon Simple Storage Service からダウンロードされ、推論コンテナにロードされます。そのため、最初の呼び出しがレスポンスを返すまでには時間がかかります。モデルがすでにロードされているため、その後の同じモデルへの呼び出しはより早く完了します。

SageMaker は、60 秒invoke_endpoint以内にへの呼び出しに対するレスポンスを返します。一部のモデルはサイズが大きく、60 秒以内にダウンロードできない場合があります。60 秒のタイムアウト制限より前にモデルのロードを完了できない場合、invoke_endpoint のリクエストはエラーコード ModelNotReadyException を返し、モデルは最大 360 秒間、推論コンテナへのダウンロードとロードを続けます。invoke_endpoint リクエストからエラーコード ModelNotReadyException を取得した場合は、リクエストを再試行してください。デフォルトでは、 AWS SDKs for Python (Boto 3) (レガシー再試行モードを使用) およびModelNotReadyExceptionエラーが発生する Java 再試行invoke_endpointリクエスト。再試行の方法は、リクエストの再試行を最大 360 秒間継続するように設定できます。モデルのダウンロードとコンテナへのロードに 60 秒以上かかることが予想される場合は、SDKソケットタイムアウトを 70 秒に設定します。 AWS SDK for Python (Boto3)の再試行方法を設定する方法の詳細については、「Configuring a retry mode」を参照してください。次のコードは、invoke_endpoint の呼び出しを最大 180 秒間再試行する再試行方法を設定する例を示しています。


import boto3
from botocore.config import Config

# This example retry strategy sets the retry attempts to 2. 
# With this setting, the request can attempt to download and/or load the model 
# for upto 180 seconds: 1 orginal request (60 seconds) + 2 retries (120 seconds)
config = Config(
    read_timeout=70,
    retries={
        'max_attempts': 2  # This value can be adjusted to 5 to go up to the 360s max timeout
    }
)
runtime_sagemaker_client = boto3.client('sagemaker-runtime', config=config)

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

マルチモデルエンドポイントを作成する

モデルの追加または削除