Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Mejores prácticas de optimización de costes de inferencia
El siguiente contenido proporciona técnicas y consideraciones para optimizar el coste de puntos de conexión. Puede utilizar estas recomendaciones para optimizar el coste de puntos de conexión nuevos y existentes.
Prácticas recomendadas
Para optimizar sus costes de SageMaker inferencia, siga estas prácticas recomendadas.
SageMaker ofrece 4 opciones de inferencia diferentes para proporcionar la mejor opción de inferencia para el trabajo. Es posible que pueda ahorrar costes si elige la opción de inferencia que mejor se adapte a su carga de trabajo.
Utilice inferencia en tiempo real para cargas de trabajo de baja latencia con patrones de tráfico predecibles que deben tener características de latencia coherentes y estar siempre disponibles. Usted paga por el uso de la instancia.
Utilice inferencia sin servidor para cargas de trabajo sincrónicas que tengan un patrón de tráfico intenso y puedan aceptar variaciones en la latencia p99. La inferencia sin servidor se escala automáticamente para adaptarse al tráfico de su carga de trabajo, por lo que no tendrá que pagar por ningún recurso inactivo. Solo pagará por la duración de la solicitud de inferencia. Se pueden usar el mismo modelo y los mismos contenedores con la inferencia en tiempo real y sin servidor, por lo que puede cambiar entre estos dos modos si sus necesidades cambian.
Utilice la inferencia asíncrona para cargas de trabajo asíncronas que procesan hasta 1 GB de datos (como cuerpo de textos, imágenes, vídeo y audio) que no son sensibles a la latencia y sí a los costes. Con la inferencia asíncrona, puede controlar los costes especificando un número fijo de instancias para obtener la velocidad de procesamiento óptima, en lugar de aprovisionarlas para los picos de procesamiento. También puede reducir la escala a cero para ahorrar costes adicionales.
Utilice inferencia por lotes para las cargas de trabajo para las que necesite inferir un conjunto grande de datos para procesos que se llevan a cabo sin conexión (es decir, no necesita un punto de conexión persistente). La instancia se paga mientras dure el trabajo de inferencia por lotes.
-
Si tiene un nivel de uso uniforme en todos los SageMaker servicios, puede suscribirse a un SageMaker Savings Plan para reducir sus costos hasta en un 64%.
-
Amazon SageMaker Savings Plans
ofrece un modelo de precios flexible para Amazon SageMaker, a cambio del compromiso de mantener una cantidad constante de uso (medida en $/hora) durante un período de uno o tres años. Estos planes se aplican automáticamente a los usos de instancias de SageMaker ML elegibles, como SageMaker Studio Classic Notebook, SageMaker On-Demand Notebook, SageMaker Processing, SageMaker Data Wrangler, SageMaker Training, SageMaker Real-Time Inference y SageMaker Batch Transform, independientemente de la familia, el tamaño o la región de la instancia. Por ejemplo, puede cambiar el uso de una instancia CPU ml.c5.xlarge que se ejecute en EE. UU. Este (Ohio) a una instancia ML.inf1 en EE. UU. Oeste (Oregón) para cargas de trabajo de inferencia en cualquier momento y seguir pagando automáticamente el precio de Savings Plans.
Los modelos no optimizados pueden prolongar los tiempos de ejecución y consumir más recursos. Puede optar por utilizar más instancias o más grandes para mejorar el rendimiento; sin embargo, esto conlleva costes más altos.
Al optimizar sus modelos para que tengan un mayor rendimiento, podrá reducir los costes utilizando menos instancias o más pequeñas y, al mismo tiempo, mantener las mismas o mejores características de rendimiento. Puede utilizar Neo con Inference para optimizar automáticamente los modelos. SageMaker
SageMaker Para obtener más detalles y ejemplos, consulte Optimice el rendimiento del modelo con Neo.
SageMaker Inference tiene más de 70 tipos y tamaños de instancias que se pueden usar para implementar modelos de aprendizaje automático, entre los que se incluyen AWS Conjuntos de chips Inferentia y Graviton optimizados para el aprendizaje automático. Elegir la instancia adecuada para su modelo le ayuda a garantizar que dispone de la instancia de mayor rendimiento al menor coste para sus modelos.
Al usar Inference Recommender, puede comparar rápidamente diferentes instancias para comprender el rendimiento del modelo y los costes. Con estos resultados, puede elegir la instancia que desea implementar con la mejor rentabilidad de la inversión.
-
Los costes pueden aumentar rápidamente cuando se implementan varios puntos de conexión, especialmente si los puntos de conexión no utilizan completamente las instancias subyacentes. Para saber si la instancia está infrautilizada, consulta las métricas de uso (CPUGPU, etc.) de Amazon CloudWatch para tus instancias. Si tiene más de uno de estos puntos de conexión, puede combinar los modelos o contenedores de estos puntos de conexión múltiples en un solo punto de conexión.
-
Al utilizar puntos de enlace multimodelo (MME) o puntos de enlace multicontenedor (MCE), puede implementar varios modelos o contenedores de aprendizaje automático en un único punto de conexión para compartir la instancia entre varios modelos o contenedores y mejorar el retorno de la inversión. Para obtener más información, consulte este artículo Ahorre en costes de inferencia mediante el uso de puntos de enlace SageMaker multimodelo de Amazon
o Implemente varios contenedores de servicio en una sola instancia mediante puntos de enlace de SageMaker varios contenedores de Amazon en el AWS Blog de Machine Learning.
-
Sin el escalado automático, debe aprovisionar los picos de tráfico o el riesgo de no disponibilidad del modelo. A menos que el tráfico de su modelo se mantenga estable durante todo el día, habrá un exceso de capacidad no utilizada. Esto conduce a una baja utilización y al despilfarro de recursos.
-
El escalado automático es una out-of-the-box función que monitorea las cargas de trabajo y ajusta dinámicamente la capacidad para mantener un rendimiento estable y predecible al menor coste posible. Cuando la carga de trabajo aumenta, el escalado automático proporciona más instancias en línea. Cuando la carga de trabajo disminuye, el escalado automático elimina las instancias innecesarias, lo que le ayuda a reducir los costes informáticos. Para obtener más información, consulte Configuración de puntos de enlace de inferencia de escalado automático en Amazon en SageMaker
AWS Blog de Machine Learning.