使用控制台配置模型自动扩缩 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用控制台配置模型自动扩缩

要为模型(管理控制台)配置自动扩缩功能
  1. 打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 在导航窗格中选择推理,然后选择端点

  3. 选择端点,然后在端点运行时设置中选择变体。

  4. 选择 Configure auto scaling (配置自动扩展)。

  5. 配置变量自动扩缩页面的变量自动扩缩中,执行以下操作:

    1. 最小实例数中,键入希望扩展策略保持的最小实例数。至少需要 1 个实例。

    2. 最大实例数中,键入希望扩展策略保持的最大实例数。

  6. 对于内置扩展策略,请执行以下操作:

    1. 对于目标指标SageMakerVariantInvocationsPerInstance 会被自动选择为指标,且无法更改。

    2. 对于目标值,请键入模型每分钟每个实例的平均调用次数。要确定该值,请按照负载测试中的准则进行操作。

    3. (可选)对于横向缩减冷却(秒)横向扩展冷却(秒),输入每个冷却周期的时间(秒)。

    4. (可选)如果不想在流量减少时自动扩缩终止实例,请选择禁用横向缩减

  7. 选择保存

此过程使用 Application Auto Scaling 将模型注册为可扩展目标。当您注册模型时,Application Auto Scaling 执行验证检查以确保以下内容:

  • 该模型存在

  • 权限足够

  • 您没有注册具有可突增性能实例 (如 T2) 的变体。

    注意

    SageMaker AI 不支持 T2 等可突发实例的 auto Scaling,因为它们已经允许在工作负载增加的情况下增加容量。有关突发性能实例的信息,请参阅 Amazon EC2 实例类型