Ajuste de escala automático de endpoints com vários contêineres - Amazon SageMaker

Ajuste de escala automático de endpoints com vários contêineres

Se você quiser configurar o ajuste de escala automático para um endpoint de vários contêineres usando a métrica InvocationsPerInstance, recomendamos que o modelo em cada contêiner exiba utilização e latência de CPU semelhantes em cada solicitação de inferência. Isso é recomendado porque, se o tráfego para o endpoint de vários contêineres mudar de um modelo de baixa utilização da CPU para um modelo de alta utilização da CPU, mas o volume geral de chamadas permanecer o mesmo, o endpoint não se expandirá e talvez não haja instâncias suficientes para lidar com todas as solicitações do modelo de alta utilização da CPU. Para obter informações sobre a endpoints de ajuste de escala automático, consulte Ajuste de escala automático dos modelos do Amazon SageMaker.