Establezca el SageMaker comportamiento de almacenamiento en caché del modelo de punto final multimodelo de IA

De forma predeterminada, los puntos de conexión multimodelo almacenan en caché los modelos que se utilizan con más frecuencia en la memoria (CPU o GPU, dependiendo de si tiene instancias respaldadas por CPU o GPU) y en disco para proporcionar inferencias de baja latencia. Los modelos en caché se descargan y se and/or eliminan del disco solo cuando un contenedor se queda sin memoria o espacio en disco para adaptarse a un modelo recién diseñado.

Puede cambiar el comportamiento de almacenamiento en caché de un punto de conexión multimodelo y habilitar o deshabilitar explícitamente el almacenamiento en caché del modelo configurando el parámetro ModelCacheSetting al llamar a create_model.

Recomendamos establecer el valor del parámetro ModelCacheSetting en Disabled para los casos de uso que no aprovechen el almacenamiento en caché del modelo. Por ejemplo, cuando es necesario servir una gran cantidad de modelos desde el punto de conexión, pero cada modelo se invoca solo una vez (o con muy poca frecuencia). En estos casos de uso, si se establece el valor del parámetro ModelCacheSetting en Disabled permite un mayor número de transacciones por segundo (TPS) para solicitudes invoke_endpoint, en comparación con el modo de almacenamiento en caché predeterminado. Un TPS más alto en estos casos de uso se debe a que la SageMaker IA hace lo siguiente después de la solicitud: invoke_endpoint

Descarga el modelo de la memoria de forma asíncrona y lo elimina del disco inmediatamente después de invocarlo.
Proporciona una mayor simultaneidad para descargar y cargar modelos en el contenedor de inferencias. Tanto para los puntos de conexión respaldados por CPU como por GPU, la simultaneidad es un factor del número de vCPU de la instancia de contenedor.

Para obtener instrucciones sobre cómo elegir un tipo de instancia de SageMaker IA ML para un punto final multimodelo, consulte. Recomendaciones de instancia para implementaciones de puntos de conexión multimodelo

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

CloudWatch Métricas para despliegues de Multi-Model terminales

Establezca políticas de Auto Scaling para despliegues de Multi-Model terminales