设置 SageMaker AI 多模型端点模型缓存行为

默认情况下，多模型端点会将常用模型缓存在内存（CPU 或 GPU，取决于您拥有 CPU 还是 GPU 支持的实例）和磁盘上，以便在推理时降低延迟。只有当容器的内存或磁盘空间不足以容纳新的目标模型时，才会从磁盘上卸载 and/or 缓存的模型。

您可以更改多模型端点的缓存行为，并通过在调用 create_model 时设置参数 ModelCacheSetting 来明确启用或禁用模型缓存。

对于不会通过模型缓存受益的使用案例，我们建议将 ModelCacheSetting 参数的值设置为 Disabled。例如，当需要从端点提供大量模型，但每个模型只被调用一次（或很少被调用）时。对于此类使用案例，请将 ModelCacheSetting 参数的值设置为 Disabled，允许为 invoke_endpoint 请求使用更高的每秒交易量 (TPS)（与默认缓存模式相比）。在这些用例中，更高的 TPS 是因为 SageMaker AI 在invoke_endpoint请求后会执行以下操作：

从内存中异步卸载模型，并在调用模型后立即将其从磁盘中删除。
为在推理容器中下载和加载模型提供更高的并发度。对于 CPU 和 GPU 支持的端点，并发度是容器实例的 vCPU 数量的一个相关因素。

有关为多模型终端节点选择 A SageMaker I ML 实例类型的指南，请参阅多模型端点部署的实例建议。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

CloudWatch Multi-Model 端点部署指标

为 Multi-Model 端点部署设置 Auto Scaling 策略