本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用控制台配置模型自动扩缩
要为模型(管理控制台)配置自动扩缩功能
打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/
。 -
在导航窗格中选择推理,然后选择端点。
-
选择端点,然后在端点运行时设置中选择变体。
-
选择 Configure auto scaling (配置自动扩展)。
-
在配置变量自动扩缩页面的变量自动扩缩中,执行以下操作:
-
在最小实例数中,键入希望扩展策略保持的最小实例数。至少需要 1 个实例。
-
在最大实例数中,键入希望扩展策略保持的最大实例数。
-
-
对于内置扩展策略,请执行以下操作:
-
对于目标指标,
SageMakerVariantInvocationsPerInstance
会被自动选择为指标,且无法更改。 -
对于目标值,请键入模型每分钟每个实例的平均调用次数。要确定该值,请按照负载测试中的准则进行操作。
-
(可选)对于横向缩减冷却(秒)和横向扩展冷却(秒),输入每个冷却周期的时间(秒)。
-
(可选)如果不想在流量减少时自动扩缩终止实例,请选择禁用横向缩减。
-
-
选择保存。
此过程使用 Application Auto Scaling 将模型注册为可扩展目标。当您注册模型时,Application Auto Scaling 执行验证检查以确保以下内容:
-
该模型存在
-
权限足够
-
您没有注册具有可突增性能实例 (如 T2) 的变体。
注意
SageMaker AI 不支持 T2 等可突发实例的 auto Scaling,因为它们已经允许在工作负载增加的情况下增加容量。有关突发性能实例的信息,请参阅 Amazon EC2 实例类型
。