Prueba de carga de la configuración de escalado automático - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Prueba de carga de la configuración de escalado automático

Realice pruebas de carga para elegir una configuración de escalado que funcione de la manera que desee.

En las siguientes directrices para las pruebas de carga se parte del supuesto de que se utiliza una política de escalado que utiliza la métrica objetivo predefinidaSageMakerVariantInvocationsPerInstance.

Determinación de las características de rendimiento

Realice la prueba de carga para buscar el pico InvocationsPerInstance que la variante de producción del modelo puede administrar y la latencia de las solicitudes a medida que la concurrencia aumenta.

Este valor depende del tipo de instancia elegido, las cargas que los clientes de su modelo suelen enviar y el rendimiento de cualquier dependencia externa que tenga su modelo.

Para encontrar el pico requests-per-second (RPS) que la variante de producción de su modelo puede gestionar y la latencia de las solicitudes
  1. Configure un punto de enlace con su modelo mediante una instancia única. Para obtener información sobre cómo configurar un punto de enlace, consulte Implemente el modelo en los servicios SageMaker de alojamiento.

  2. Utilice una herramienta de pruebas de carga para generar un número cada vez mayor de solicitudes paralelas y supervise RPS y modele la latencia en la salida de la herramienta de prueba de carga.

    nota

    También puede monitorizar requests-per-minute en lugar deRPS. En ese caso, no multiplique por 60 en la ecuación para calcular SageMakerVariantInvocationsPerInstance que se muestra a continuación.

    Cuando la latencia del modelo aumenta o la proporción de transacciones exitosas disminuye, este es el pico RPS que puede soportar su modelo.

Cálculo de la carga de destino

Una vez que encuentres las características de rendimiento de la variante, podrás determinar el máximo RPS que debemos permitir que se envíe a una instancia. El umbral utilizado para el escalado debe ser inferior a este valor máximo. Usa la siguiente ecuación en combinación con las pruebas de carga para determinar el valor correcto de la métrica SageMakerVariantInvocationsPerInstance objetivo en tu configuración de escalado.

SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60

¿Dónde MAX_RPS está el máximo RPS que determinaste previamente y SAFETY_FACTOR es el factor de seguridad que elegiste para garantizar que tus clientes no superen el máximoRPS? Multiplica por 60 para convertir de RPS invocations-per-minute a para que coincida con la CloudWatch métrica por minuto que se SageMaker utiliza para implementar el escalado automático (no es necesario que lo hagas si has medido requests-per-minute en lugar de hacerlo requests-per-second).

nota

SageMaker recomienda que comience las pruebas con un valor SAFETY_FACTOR de 0,5. Pruebe su configuración de escalado para asegurarse de que funciona de la manera esperada con su modelo, tanto para aumentar como para disminuir el tráfico de clientes en su terminal.