

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# SageMaker AI マルチモデルエンドポイントモデルのキャッシュ動作を設定する
<a name="multi-model-caching"></a>

デフォルトでは、マルチモデルエンドポイントは、低レイテンシーの推論を可能にするために、頻繁に使用されるモデルをメモリ（CPU または GPU ベースのどちらかに応じて CPU または GPU）とディスクに、頻繁に使用されるモデルをキャッシュします。キャッシュされたモデルがディスクからアンロードまたは削除されるのは、新しいターゲットモデルに対応してコンテナのメモリまたはディスク領域が不足した場合のみです。

[create\$1model](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_model) を呼び出したときにパラメータ `ModelCacheSetting` を設定することで、マルチモデルエンドポイントのキャッシュ動作を変更し、モデルキャッシュを明示的に有効または無効にできます。

モデルのキャッシュによる利点がないユースケースの場合は、`ModelCacheSetting` パラメータの値を `Disabled` に設定することをお勧めします。例えば、エンドポイントから多数のモデルを提供する必要があるものの、各モデルが 1 回のみ (または非常にまれに) 呼び出される場合などです。このようなユースケースでは、`ModelCacheSetting` パラメータの値を `Disabled` に設定にすると、デフォルトのキャッシュモードと比較して、`invoke_endpoint` リクエストに対する 1 秒あたりのトランザクション処理件数 (TPS) が多くなります。これらのユースケースで TPS が多くなるのは、SageMaker AI が `invoke_endpoint` リクエスト受信後に以下を実行するためです。
+ モデルをメモリから非同期的にアンロードし、呼び出された直後にディスクから削除する。
+ 推論コンテナでモデルをダウンロード、ロードする際に、同時実行数を増やす CPU と GPU ベースのエンドポイントの両方で、同時実行数は、コンテナインスタンスの vCPU 数の因数です。

マルチモデルエンドポイントの SageMaker AI 機械学習インスタンスタイプを選択する際のガイドラインについては、「[マルチモデルエンドポイントのデプロイのためのインスタンスの推奨事項](multi-model-endpoint-instance.md)」を参照してください。