Mejores prácticas para implementar modelos en los servicios SageMaker de alojamiento

Al alojar modelos mediante servicios SageMaker de alojamiento, tenga en cuenta lo siguiente:

Por lo general, una aplicación cliente envía solicitudes al SageMaker HTTPS punto final para obtener inferencias a partir de un modelo implementado. También puede enviar solicitudes a este punto de conexión desde el cuaderno de Jupyter durante la prueba.
Puede implementar un modelo adaptado SageMaker a su propio objetivo de despliegue. Para ello, necesita saber el formato específico del algoritmo de los artefactos del modelo que generó la capacitación de modelos. Para obtener más información sobre los formatos de salida, consulte la sección correspondiente al algoritmo que está usando en Formatos de datos comunes para la capacitación.
Puede implementar varias variantes de un modelo en el mismo SageMaker HTTPS punto final. Esto resulta útil para las variaciones de prueba de un modelo en la producción. Por ejemplo, suponga que se ha implementado un modelo en producción. Desea probar una variación del modelo dirigiendo una pequeña cantidad de tráfico, como por ejemplo un 5 %, al nuevo modelo. Para ello, cree una configuración de punto de conexión que describa ambas variantes del modelo. Especifique ProductionVariant en su solicitud en CreateEndPointConfig. Para obtener más información, consulte ProductionVariant.
Puede configurar un ProductionVariant para utilizar Application Auto Scaling. Para obtener información sobre la configuración del escalado automático, consulte Escalado automático de los SageMaker modelos de Amazon.
Puede modificar un punto de conexión sin tomar los modelos que ya se han implementado en la producción fuera de servicio. Por ejemplo, puede agregar nuevas variantes de modelos, actualizar las configuraciones de instancias de computación de ML de las variantes de modelos existentes o cambiar la distribución del tráfico entre las variantes de modelos. Para modificar un punto final, debe proporcionar una nueva configuración de punto final. SageMaker implementa los cambios sin ningún tiempo de inactividad. Para obtener más información, consulte UpdateEndpoint y UpdateEndpointWeightsAndCapacities.
El cambio o eliminación de los artefactos de los modelos o la modificación del código de inferencia después de implementar un modelo generan resultados impredecibles. Si necesita cambiar o eliminar artefactos de modelos o cambiar el código de inferencias, modifique el punto de conexión proporcionando una nueva configuración de punto de conexión. Una vez que proporcione la nueva configuración de punto de conexión, podrá cambiar o eliminar los artefactos de modelo correspondientes a la configuración de punto de conexión antigua.
Si desea obtener inferencias en conjuntos de datos completos, considere la posibilidad de utilizar transformaciones por lotes como alternativa a los servicios de alojamiento. Para obtener información, consulte Transformación por lotes para inferencias con Amazon SageMaker

Implementación de varias instancias en diversas zonas de disponibilidad

Cree puntos finales sólidos al alojar su modelo. SageMakerLos puntos finales pueden ayudar a proteger su aplicación de las interrupciones en la zona de disponibilidad y de los fallos en las instancias. Si se produce una interrupción o una instancia falla, intenta distribuir SageMaker automáticamente las instancias entre las zonas de disponibilidad. Por este motivo, le recomendamos encarecidamente que implemente varias instancias para cada punto final de producción.

Si utiliza una Amazon Virtual Private Cloud (VPC), configúrela VPC con al menos dos Subnets, cada una en una zona de disponibilidad diferente. Si se produce una interrupción o una instancia falla, Amazon SageMaker intentará distribuir automáticamente las instancias entre las zonas de disponibilidad.

En general, para lograr un rendimiento de mayor confianza, use más Tipos de instancia pequeños en diferentes zonas de disponibilidad para alojar sus puntos de conexión.

Implemente componentes de inferencia para una alta disponibilidad. Además de la recomendación anterior sobre los números de instancia, para lograr una disponibilidad del 99,95%, asegúrese de que los componentes de inferencia estén configurados para tener más de dos copias. Además, en tu política de escalado automático administrado, establece también el número mínimo de instancias en dos.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Prácticas recomendadas

Supervisión de prácticas recomendadas de seguridad