SageMaker マルチモデルエンドポイントモデルのキャッシュ動作を設定する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker マルチモデルエンドポイントモデルのキャッシュ動作を設定する

デフォルトでは、マルチモデルエンドポイントは頻繁に使用されるモデルをメモリ (CPU または GPU、インスタンスがCPUGPUバックアップされているかに応じて) とディスクにキャッシュして、低レイテンシーの推論を提供します。キャッシュされたモデルがディスクからアンロードまたは削除されるのは、新しいターゲットモデルに対応してコンテナのメモリまたはディスク領域が不足した場合のみです。

create_model を呼び出したときにパラメータ ModelCacheSetting を設定することで、マルチモデルエンドポイントのキャッシュ動作を変更し、モデルキャッシュを明示的に有効または無効にできます。

モデルのキャッシュによる利点がないユースケースの場合は、ModelCacheSetting パラメータの値を Disabled に設定することをお勧めします。例えば、エンドポイントから多数のモデルを提供する必要があるものの、各モデルが 1 回のみ (または非常にまれに) 呼び出される場合などです。このようなユースケースでは、 ModelCacheSettingパラメータの値を に設定すると、デフォルトのキャッシュモードと比較して、invoke_endpointリクエストの 1 秒あたりのトランザクション (TPS) Disabledが増加します。これらのユースケースTPSでは、 がinvoke_endpointリクエスト後に以下 SageMaker を実行するため、 が高くなります。

  • モデルをメモリから非同期的にアンロードし、呼び出された直後にディスクから削除する。

  • 推論コンテナでモデルをダウンロード、ロードする際に、同時実行数を増やす CPU とGPUバックアップされたエンドポイントの両方で、同時実行はコンテナインスタンスの の数の要因 vCPUs です。

マルチモデルエンドポイントの SageMaker ML インスタンスタイプを選択するガイドラインについては、「」を参照してくださいマルチモデルエンドポイントのデプロイのためのインスタンスの推奨事項