自动缩放的先决条件

在使用 auto Scaling 之前，您必须已经创建了 Amazon SageMaker 模型终端节点。同一个端点可以有多个模型版本。每个型号都被称为量产（模型）变体。有关部署模型终端节点的更多信息，请参阅将模型部署到 SageMaker 托管服务。

要激活模型的自动缩放，您可以使用 SageMaker 控制台、 AWS Command Line Interface (AWS CLI) 或 AWS SDK通过 Application Auto Scaling API。

如果这是您第一次为模型配置缩放比例，我们建议您这样做使用控制台配置模型自动扩缩。
使用 AWS CLI 或 Application Auto Scaling 时API，流程是将模型注册为可扩展目标，定义扩展策略，然后应用该策略。在 SageMaker 控制台的导航窗格的 “推理” 下，选择 “终端节点”。找到模型的端点名称，然后选择它来查找变体名称。必须同时指定端点名称和变体名称才能为模型激活 auto Scaling。

Amazon SageMaker、Amazon 和 Application Auto Scaling 的组合使自动扩展成为可能APIs。 CloudWatch有关所需最低权限的信息，请参阅《Auto Scaling Auto Scaling 用户指南》中的 Auto Scaling 基于身份的策略示例。

该SagemakerFullAccessPolicyIAM策略具有执行 auto Scaling 所需的所有IAM权限。有关 SageMaker IAM权限的更多信息，请参阅如何使用 SageMaker 执行角色。

如果您管理自己的权限策略，则必须包括以下权限：


{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "sagemaker:DescribeEndpoint",
        "sagemaker:DescribeEndpointConfig",
        "sagemaker:UpdateEndpointWeightsAndCapacities"
      ],
      "Resource": "*"
    },
    {    
        "Effect": "Allow",
        "Action": [
            "application-autoscaling:*"
        ],
        "Resource": "*"
    },
    {
      "Effect": "Allow",
      "Action": "iam:CreateServiceLinkedRole",
      "Resource": "arn:aws:iam::*:role/aws-service-role/sagemaker.application-autoscaling.amazonaws.com/AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint",
      "Condition": {
        "StringLike": { "iam:AWSServiceName": "sagemaker.application-autoscaling.amazonaws.com"	}
      }
    },
    {
      "Effect": "Allow",
      "Action": [
        "cloudwatch:PutMetricAlarm",
        "cloudwatch:DescribeAlarms",
        "cloudwatch:DeleteAlarms"
      ],
      "Resource": "*"
    }
  ]
}

服务相关角色

自动缩放使用AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint服务相关角色。此服务相关角色授予 Application Auto Scaling 描述策略警报、监控当前容量水平和扩展目标资源的权限。此角色是自动为您创建的。要成功创建自动角色，您必须拥有iam:CreateServiceLinkedRole操作权限。有关更多信息，请参阅《Application Auto Scaling 用户指南》中的服务相关角色。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

自动扩缩策略概览

使用控制台配置模型自动扩缩