Escalado basado en programación Límites de escalado máximo y mínimo Periodo de recuperación Recursos relacionados

Información general sobre las políticas de escalado automático

Para usar el escalado automático, debe definir una política de escalado que agregue y elimine el número de instancias de la variante de producción en respuesta a las cargas de trabajo reales.

Para escalar automáticamente a medida que se producen cambios en la carga de trabajo, tiene dos opciones: políticas de seguimiento de destino y de escalado por pasos.

En la mayoría de los casos, recomendamos utilizar políticas de escalado y seguimiento de objetivos. Con el seguimiento objetivo, eliges una CloudWatch métrica y un valor objetivo de Amazon. El escalado automático crea y gestiona las CloudWatch alarmas de la política de escalado y calcula el ajuste de escalado en función de la métrica y el valor objetivo. La política agrega o quita las instancias en función de las necesidades para mantener la métrica en el valor objetivo especificado o en un valor próximo. Por ejemplo, una política de escalado que utiliza la métrica predefinida InvocationsPerInstance con un valor de destino de 70 puede mantener InvocationsPerInstance en 70 o cerca de ese valor. Para obtener más información, consulte Políticas de escalado de seguimiento de destino en la Guía del usuario de Application Auto Scaling.

Puede utilizar el escalado por pasos cuando necesite una configuración avanzada, como especificar cuántas instancias se implementarán y en qué condiciones. Por ejemplo, debe usar el escalado escalonado si quiere permitir que un punto final escale horizontalmente desde cero instancias activas. Para obtener más información acerca de políticas de escalado por pasos y su funcionamiento, consulte Step scaling policies en la Guía del usuario de Application Auto Scaling.

Para crear una política de escalado de seguimiento de destino, debe especificar lo siguiente:

Métrica: la CloudWatch métrica que se debe rastrear, como el número promedio de invocaciones por instancia.
Valor objetivo: el valor objetivo de la métrica, como 70 invocaciones por instancia por minuto.

Puede crear políticas de escalado de seguimiento de destino con métricas predefinidas o personalizadas. Una métrica predefinida se define en una enumeración para que puedas especificarla por su nombre en el código o utilizarla en la consola de SageMaker IA. También puede utilizar la AWS CLI o la API de Application Auto Scaling para aplicar una política de escalado de seguimiento de destino basada en una métrica predefinida o personalizada.

Tenga en cuenta que las actividades de escalado se realizan con periodos de recuperación entre ellas para evitar fluctuaciones rápidas de la capacidad. Si lo desea, puede configurar los periodos de recuperación para su política de escalado.

Para obtener más información acerca de los conceptos clave del escalado automático, consulte la siguiente sección.

Escalado basado en programación

También puede crear acciones programadas para realizar actividades de escalado en momentos específicos. Puede crear acciones programadas que realizan el escalado de forma puntual o periódica. Después de ejecutar una acción programada, la política de escalado puede seguir tomando decisiones sobre si desea escalar dinámicamente a medida que se producen cambios en la carga de trabajo. El escalado programado solo se puede gestionar desde la API Application Auto Scaling AWS CLI o desde ella. Para obtener más información, consulte Escalado programado en la Guía del usuario de Auto Scaling de aplicaciones.

Límites de escalado máximo y mínimo

Al configurar el escalado automático, debe especificar sus límites de escalado antes de crear una política de escalado. Configure los límites por separado para los valores mínimo y máximo.

Este valor debe ser al menos 1, e igual o inferior al valor especificado para el máximo.

El valor máximo debe ser igual o superior al valor especificado para el valor mínimo. SageMaker El escalado automático mediante IA no impone un límite para este valor.

Para determinar los límites de escalado que necesita para el tráfico normal, pruebe la configuración de escalado automático con la tasa de tráfico esperada para su modelo.

Si el tráfico de una variante se reduce a cero, la SageMaker IA se ajusta automáticamente al número mínimo de instancias especificado. En este caso, la SageMaker IA emite métricas con un valor de cero.

Hay tres opciones para especificar la capacidad mínima y máxima:

Utilice la consola para actualizar la configuración del número mínimo de instancias y el número máximo de instancias.
Utilice las opciones AWS CLI e incluya las --max-capacity opciones --min-capacity y al ejecutar el register-scalable-targetcomando.
Llame a la RegisterScalableTargetAPI y especifique los MaxCapacity parámetros MinCapacity y.

sugerencia

Puede escalar horizontalmente de forma manual aumentando el valor mínimo, o reducir horizontalmente de forma manual reduciendo el valor máximo.

Periodo de recuperación

Se utiliza un periodo de recuperación para proteger contra el escalado excesivo cuando el modelo se reduzca horizontalmente (reducción de la capacidad) o se escale horizontalmente (aumento de la capacidad). Se hace ralentizando las actividades de escalado posteriores hasta que venza el periodo. En concreto, bloquea la eliminación de las instancias para las solicitudes de reducción horizontal y limita la creación de instancias de solicitudes de escalado horizontal. Para obtener más información, consulte Define cooldown periods en la Guía del usuario de Application Auto Scaling.

El periodo de recuperación se configura en la política de escalado.

Si no especifica un periodo de recuperación de reducción horizontal o escalado horizontal, la política de escalado utiliza el valor predeterminado, que es 300 segundos en cada uno de ellos.

Si las instancias se agregan o quitan demasiado rápido al probar la configuración del escalado, plantéese aumentar ese valor. Puede ver este comportamiento si el tráfico al modelo tiene muchos picos, o si dispone de varias políticas de escalado definidas para una variante.

Si las instancias no se agregan lo suficientemente rápido como para tratar el aumento del tráfico, considere reducir este valor.

Para obtener más información sobre la configuración del escalado automático, vea los siguientes recursos:

Sección application-autoscaling de la Referencia de comandos de la AWS CLI
Referencia de la API de Application Auto Scaling
Guía del usuario de la aplicación Auto Scaling

nota

SageMaker La IA introdujo recientemente nuevas capacidades de inferencia basadas en puntos finales de inferencia en tiempo real. Se crea un punto final de SageMaker IA con una configuración de punto final que define el tipo de instancia y el recuento inicial de instancias del punto final. A continuación, cree un componente de inferencia, que es un objeto de alojamiento de SageMaker IA que puede utilizar para implementar un modelo en un punto final. Para obtener información sobre cómo escalar los componentes de inferencia, consulte La SageMaker IA añade nuevas capacidades de inferencia para ayudar a reducir los costes de despliegue y la latencia del modelo básico y reduce los costes de despliegue del modelo en un 50% de media utilizando las últimas funciones de SageMaker IA publicadas en el blog. AWS

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Escalado automático

Requisitos previos