Mejores prácticas de optimización de costes de inferencia

El siguiente contenido proporciona técnicas y consideraciones para optimizar el coste de puntos de conexión. Puede utilizar estas recomendaciones para optimizar el coste de puntos de conexión nuevos y existentes.

Prácticas recomendadas

Para optimizar sus costes de inferencia de SageMaker IA, siga estas prácticas recomendadas.

SageMaker La IA ofrece 4 opciones de inferencia diferentes para proporcionar la mejor opción de inferencia para el trabajo. Es posible que pueda ahorrar costes si elige la opción de inferencia que mejor se adapte a su carga de trabajo.

Utilice inferencia en tiempo real para cargas de trabajo de baja latencia con patrones de tráfico predecibles que deben tener características de latencia coherentes y estar siempre disponibles. Usted paga por el uso de la instancia.
Utilice inferencia sin servidor para cargas de trabajo sincrónicas que tengan un patrón de tráfico intenso y puedan aceptar variaciones en la latencia p99. La inferencia sin servidor se escala automáticamente para adaptarse al tráfico de su carga de trabajo, por lo que no tendrá que pagar por ningún recurso inactivo. Solo pagará por la duración de la solicitud de inferencia. Se pueden usar el mismo modelo y los mismos contenedores con la inferencia en tiempo real y sin servidor, por lo que puede cambiar entre estos dos modos si sus necesidades cambian.
Utilice la inferencia asíncrona para cargas de trabajo asíncronas que procesan hasta 1 GB de datos (como cuerpo de textos, imágenes, vídeo y audio) que no son sensibles a la latencia y sí a los costes. Con la inferencia asíncrona, puede controlar los costes especificando un número fijo de instancias para obtener la velocidad de procesamiento óptima, en lugar de aprovisionarlas para los picos de procesamiento. También puede reducir la escala a cero para ahorrar costes adicionales.
Utilice inferencia por lotes para las cargas de trabajo para las que necesite inferir un conjunto grande de datos para procesos que se llevan a cabo sin conexión (es decir, no necesita un punto de conexión persistente). La instancia se paga mientras dure el trabajo de inferencia por lotes.

Si tiene un nivel de uso uniforme en todos los servicios de SageMaker IA, puede optar por un SageMaker AI Savings Plan para reducir sus costes hasta en un 64%.
Amazon SageMaker AI Savings Plans ofrece un modelo de precios flexible para Amazon SageMaker AI, a cambio del compromiso de mantener una cantidad constante de uso (medida en USD por hora) durante un período de uno o tres años. Estos planes se aplican automáticamente a los usos de instancias de SageMaker AI ML aptas, como SageMaker Studio Classic Notebook, SageMaker On-Demand Notebook, SageMaker Processing, SageMaker Data Wrangler, SageMaker Training, SageMaker Real-Time Inference y SageMaker Batch Transform, independientemente de la familia, el tamaño o la región de la instancia. Por ejemplo, puede cambiar el uso de una instancia CPU ml.c5.xlarge que se ejecute en EE. UU. Este (Ohio) a una instancia ML.inf1 en EE. UU. Oeste (Oregón) para cargas de trabajo de inferencia en cualquier momento y seguir pagando automáticamente el precio de Savings Plans.

Los modelos no optimizados pueden prolongar los tiempos de ejecución y consumir más recursos. Puede optar por utilizar más instancias o más grandes para mejorar el rendimiento; sin embargo, esto conlleva costes más altos.
Al optimizar sus modelos para que tengan un mayor rendimiento, podrá reducir los costes utilizando menos instancias o más pequeñas y, al mismo tiempo, mantener las mismas o mejores características de rendimiento. Puede utilizar Neo con IA Inference para optimizar automáticamente los modelos. SageMaker SageMaker Para obtener más detalles y ejemplos, consulte Optimización del rendimiento de los modelos con SageMaker Neo.

SageMaker Inference tiene más de 70 tipos y tamaños de instancias que se pueden usar para implementar modelos de aprendizaje automático, incluidos los chipsets AWS Inferentia y Graviton optimizados para el aprendizaje automático. Elegir la instancia adecuada para su modelo le ayuda a garantizar que dispone de la instancia de mayor rendimiento al menor coste para sus modelos.

Al usar Inference Recommender, puede comparar rápidamente diferentes instancias para comprender el rendimiento del modelo y los costes. Con estos resultados, puede elegir la instancia que desea implementar con la mejor rentabilidad de la inversión.

Los costes pueden aumentar rápidamente cuando se implementan varios puntos de conexión, especialmente si los puntos de conexión no utilizan completamente las instancias subyacentes. Para saber si la instancia está infrautilizada, consulta las métricas de uso (CPUGPU, etc.) de Amazon CloudWatch para tus instancias. Si tiene más de uno de estos puntos de conexión, puede combinar los modelos o contenedores de estos puntos de conexión múltiples en un solo punto de conexión.
Al utilizar puntos de enlace multimodelo (MME) o puntos de enlace multicontenedor (MCE), puede implementar varios modelos o contenedores de ML en un único punto de conexión para compartir la instancia entre varios modelos o contenedores y mejorar el retorno de la inversión. Para obtener más información, consulte este artículo sobre cómo ahorrar costes de inferencia mediante el uso de puntos de enlace multimodelo de Amazon SageMaker AI o cómo implementar varios contenedores de servicio en una sola instancia con puntos de enlace de varios contenedores de Amazon SageMaker AI en el blog Machine Learning. AWS

Sin el escalado automático, debe aprovisionar los picos de tráfico o el riesgo de no disponibilidad del modelo. A menos que el tráfico de su modelo se mantenga estable durante todo el día, habrá un exceso de capacidad no utilizada. Esto conduce a una baja utilización y al despilfarro de recursos.
El escalado automático es una out-of-the-box función que monitorea las cargas de trabajo y ajusta dinámicamente la capacidad para mantener un rendimiento estable y predecible al menor coste posible. Cuando la carga de trabajo aumenta, el escalado automático proporciona más instancias en línea. Cuando la carga de trabajo disminuye, el escalado automático elimina las instancias innecesarias, lo que le ayuda a reducir los costes informáticos. Para obtener más información, consulte Configuración de puntos finales de inferencia de escalado automático en Amazon SageMaker AI en el blog AWS Machine Learning.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Solución de problemas de implementaciones de

Prácticas recomendadas para minimizar las interrupciones durante las actualizaciones de los controladores GPU