Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Puntos de conexión multicontenedor
Si desea configurar el escalado automático para un punto de conexión multicontenedor mediante la métrica InvocationsPerInstance
, le recomendamos que el modelo de cada contenedor muestre un uso de la CPU y una latencia similares en cada solicitud de inferencia. Esto se recomienda porque si el tráfico al punto de conexión multicontenedor pasa de un modelo de bajo uso de CPU a un modelo de alto uso de CPU, pero el volumen total de llamadas sigue siendo el mismo, el punto de conexión no se amplía y es posible que no haya suficientes instancias para gestionar todas las solicitudes al modelo de alto uso de CPU. Para obtener información sobre la configuración del escalado automático de puntos de conexión, consulte Escalado automático de los modelos de Amazon SageMaker AI.