Establezca el SageMaker comportamiento de almacenamiento en caché del modelo de punto final multimodelo - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Establezca el SageMaker comportamiento de almacenamiento en caché del modelo de punto final multimodelo

De forma predeterminada, los puntos de conexión multimodelo almacenan en caché los modelos que se utilizan con frecuencia en la memoria (CPUoGPU, en función de si tiene instancias GPU respaldadas CPU o respaldadas) y en el disco para proporcionar una inferencia de baja latencia. Los modelos en caché se descargan y/o eliminan del disco solo cuando un contenedor se queda sin memoria o espacio en disco para adaptarse a un nuevo modelo de destino.

Puede cambiar el comportamiento de almacenamiento en caché de un punto de conexión multimodelo y habilitar o deshabilitar explícitamente el almacenamiento en caché del modelo configurando el parámetro ModelCacheSetting al llamar a create_model.

Recomendamos establecer el valor del parámetro ModelCacheSetting en Disabled para los casos de uso que no aprovechen el almacenamiento en caché del modelo. Por ejemplo, cuando es necesario servir una gran cantidad de modelos desde el punto de conexión, pero cada modelo se invoca solo una vez (o con muy poca frecuencia). En estos casos de uso, si se establece el valor del ModelCacheSetting parámetro para Disabled permitir un mayor número de transacciones por segundo (TPS) en las invoke_endpoint solicitudes, en comparación con el modo de almacenamiento en caché predeterminado. Más alto TPS en estos casos de uso se debe a que SageMaker hace lo siguiente después de la invoke_endpoint solicitud:

  • Descarga el modelo de la memoria de forma asíncrona y lo elimina del disco inmediatamente después de invocarlo.

  • Proporciona una mayor simultaneidad para descargar y cargar modelos en el contenedor de inferencias. CPUTanto para los puntos de enlace como para los GPU respaldados, la simultaneidad es un factor del número vCPUs de la instancia contenedora.

Para obtener instrucciones sobre cómo elegir un tipo de instancia de SageMaker ML para un punto final multimodelo, consulte. Recomendaciones de instancia para implementaciones de puntos de conexión multimodelo