Configuración del escalado automático de modelos con la consola - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración del escalado automático de modelos con la consola

Configuración del escalado automático de un modelo (consola)
  1. Abre la consola Amazon SageMaker AI en https://console.aws.amazon.com/sagemaker/.

  2. En el panel de navegación, elija Inferencia y, a continuación, elija Puntos de conexión.

  3. Elija el punto de conexión y, a continuación, en Configuración del tiempo de ejecución de punto de conexión, elija la variante.

  4. Elija Configure auto scaling (Configurar escalado automático).

  5. En la página Configurar escalado automático de variantes, para Escalado automático de variantes, realice lo siguiente:

    1. Para Recuento mínimo de instancias, escriba el número mínimo de instancias que desee que conserve la política de escalado. Se requiere al menos 1 instancia.

    2. Para Recuento máximo de instancias, escriba el número máximo de instancias que desee que conserve la política de escalado.

  6. Para una política de escalado integrada, haga lo siguiente:

    1. Para la Métrica de destino, se selecciona automáticamente SageMakerVariantInvocationsPerInstance para la métrica y no se puede cambiar.

    2. Para el Valor de destino, escriba el número medio de invocaciones por instancia por minuto para el modelo. Para determinar este valor, siga las directrices en Prueba de carga.

    3. (Opcional) Para Periodo de recuperación de escalado descendente (segundos) y Periodo de recuperación de escalado ascendente (segundos), escriba la cantidad de tiempo, en segundos, para cada periodo de recuperación.

    4. (Opcional) Seleccione Deshabilitar escalado descendente si no desea que el escalado automático termine instancias cuando disminuye el tráfico.

  7. Seleccione Guardar.

Este procedimiento registra un modelo como destino escalable con Application Auto Scaling. Al registrar un modelo, Application Auto Scaling realiza las comprobaciones de validación para garantizar lo siguiente:

  • El modelo existe

  • Los permisos son suficientes.

  • No está registrando ninguna variante con una instancia que sea una instancia de desempeño por ráfagas como T2.

    nota

    SageMaker La IA no admite el escalado automático para instancias con capacidad de ráfaga, como la T2, porque ya permiten aumentar la capacidad con cargas de trabajo cada vez mayores. Para obtener información sobre las instancias de rendimiento explosivo, consulta los tipos de instancias de Amazon EC2 .