使用控制台配置模型自动扩缩

打开 Amazon A SageMaker I 控制台，网址为https://console.aws.amazon.com/sagemaker/。
在导航窗格中选择推理，然后选择端点。
选择端点，然后在端点运行时设置中选择变体。
选择 Configure auto scaling (配置自动扩展)。
在配置变量自动扩缩页面的变量自动扩缩中，执行以下操作：
1. 在最小实例数中，键入希望扩展策略保持的最小实例数。至少需要 1 个实例。
2. 在最大实例数中，键入希望扩展策略保持的最大实例数。
对于内置扩展策略，请执行以下操作：
1. 对于目标指标，SageMakerVariantInvocationsPerInstance 会被自动选择为指标，且无法更改。
2. 对于目标值，请键入模型每分钟每个实例的平均调用次数。要确定该值，请按照负载测试中的准则进行操作。
3. (可选）对于横向缩减冷却（秒）和横向扩展冷却（秒），输入每个冷却周期的时间（秒）。
4. (可选）如果不想在流量减少时自动扩缩终止实例，请选择禁用横向缩减。
选择保存。

此过程使用 Application Auto Scaling 将模型注册为可扩展目标。当您注册模型时，Application Auto Scaling 执行验证检查以确保以下内容：

该模型存在
权限足够
您没有注册具有可突增性能实例 (如 T2) 的变体。

注意
SageMaker AI 不支持 T2 等可突发实例的 auto Scaling，因为它们已经允许在工作负载增加的情况下增加容量。有关突发性能实例的信息，请参阅 Amazon EC2 实例类型。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

先决条件

注册模型