Registrar un modelo
Antes de agregar una política de escalado a su modelo, primero debe registrar el modelo para el escalado automático y definir los límites de escalado del modelo.
Los siguientes procedimientos describen cómo registrar un modelo (variante de producción) para el escalado automático utilizando la AWS Command Line Interface (AWS CLI) o la API de Application Auto Scaling.
Registrar un modelo (AWS CLI)
Para registrar la variante de producción, utilice el comando register-scalable-target con los siguientes parámetros:
-
--service-namespace
: establezca este valor ensagemaker
. -
--resource-id
: el identificador de recursos del modelo (en concreto, la variante de producción). Para este parámetro, el tipo de recurso esendpoint
y el identificador único es el nombre de la variante de producción. Por ejemplo,endpoint/
.my-endpoint
/variant/my-variant
-
--scalable-dimension
: establezca este valor ensagemaker:variant:DesiredInstanceCount
. -
--min-capacity
: el número mínimo de instancias. Este valor debe establecerse en al menos 1 y debe ser igual o inferior al valor especificado paramax-capacity
. -
--max-capacity
: el número máximo de instancias. Este valor debe establecerse en al menos 1 y debe ser igual o superior al valor especificado paramin-capacity
.
El siguiente ejemplo muestra cómo registrar una variante de denominada
, que se ejecuta en el punto de conexión my-variant
y que puede escalarse dinámicamente para disponer de una a ocho instancias.my-endpoint
aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --resource-id endpoint/
my-endpoint
/variant/my-variant
\ --scalable-dimension sagemaker:variant:DesiredInstanceCount \ --min-capacity1
\ --max-capacity8
Registrar un modelo (API de Application Auto Scaling)
Para registrar un modelo con Application Auto Scaling, use la acción de API de Application Auto Scaling RegisterScalableTarget con los siguientes parámetros:
-
ServiceNamespace
: establezca este valor ensagemaker
. -
ResourceID
: el identificador de recurso para la variante de producción. Para este parámetro, el tipo de recurso esendpoint
y el identificador único es el nombre de la variante. Por ejemplo,endpoint/
.my-endpoint
/variant/my-variant
-
ScalableDimension
: establezca este valor ensagemaker:variant:DesiredInstanceCount
. -
MinCapacity
: el número mínimo de instancias. Este valor debe establecerse en al menos 1 y debe ser igual o inferior al valor especificado paraMaxCapacity
. -
MaxCapacity
: el número máximo de instancias. Este valor debe establecerse en al menos 1 y debe ser igual o superior al valor especificado paraMinCapacity
.
El siguiente ejemplo muestra cómo registrar una variante de denominada
, que se ejecuta en el punto de conexión my-variant
y que puede escalarse dinámicamente para usar de una a ocho instancias.my-endpoint
POST / HTTP/1.1 Host: application-autoscaling.us-east-2.amazonaws.com Accept-Encoding: identity X-Amz-Target: AnyScaleFrontendService.RegisterScalableTarget X-Amz-Date: 20230506T182145Z User-Agent: aws-cli/2.0.0 Python/3.7.5 Windows/10 botocore/2.0.0dev4 Content-Type: application/x-amz-json-1.1 Authorization: AUTHPARAMS { "ServiceNamespace": "sagemaker", "ResourceId": "endpoint/
my-endpoint
/variant/my-variant
", "ScalableDimension": "sagemaker:variant:DesiredInstanceCount", "MinCapacity":1
, "MaxCapacity":8
}