Mejores prácticas de optimización de costes de inferencia - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Mejores prácticas de optimización de costes de inferencia

El siguiente contenido proporciona técnicas y consideraciones para optimizar el coste de puntos de conexión. Puede utilizar estas recomendaciones para optimizar el coste de puntos de conexión nuevos y existentes.

Prácticas recomendadas

Para optimizar sus costes de SageMaker inferencia, siga estas prácticas recomendadas.

SageMaker ofrece 4 opciones de inferencia diferentes para proporcionar la mejor opción de inferencia para el trabajo. Es posible que pueda ahorrar costes si elige la opción de inferencia que mejor se adapte a su carga de trabajo.

  • Utilice inferencia en tiempo real para cargas de trabajo de baja latencia con patrones de tráfico predecibles que deben tener características de latencia coherentes y estar siempre disponibles. Usted paga por el uso de la instancia.

  • Utilice inferencia sin servidor para cargas de trabajo sincrónicas que tengan un patrón de tráfico intenso y puedan aceptar variaciones en la latencia p99. La inferencia sin servidor se escala automáticamente para adaptarse al tráfico de su carga de trabajo, por lo que no tendrá que pagar por ningún recurso inactivo. Solo pagará por la duración de la solicitud de inferencia. Se pueden usar el mismo modelo y los mismos contenedores con la inferencia en tiempo real y sin servidor, por lo que puede cambiar entre estos dos modos si sus necesidades cambian.

  • Utilice la inferencia asíncrona para cargas de trabajo asíncronas que procesan hasta 1 GB de datos (como cuerpo de textos, imágenes, vídeo y audio) que no son sensibles a la latencia y sí a los costes. Con la inferencia asíncrona, puede controlar los costes especificando un número fijo de instancias para obtener la velocidad de procesamiento óptima, en lugar de aprovisionarlas para los picos de procesamiento. También puede reducir la escala a cero para ahorrar costes adicionales.

  • Utilice inferencia por lotes para las cargas de trabajo para las que necesite inferir un conjunto grande de datos para procesos que se llevan a cabo sin conexión (es decir, no necesita un punto de conexión persistente). La instancia se paga mientras dure el trabajo de inferencia por lotes.

  • Si tiene un nivel de uso uniforme en todos los SageMaker servicios, puede suscribirse a un SageMaker Savings Plan para reducir sus costos hasta en un 64%.

  • Amazon SageMaker Savings Plans ofrece un modelo de precios flexible para Amazon SageMaker, a cambio del compromiso de mantener una cantidad constante de uso (medida en $/hora) durante un período de uno o tres años. Estos planes se aplican automáticamente a los usos de instancias de SageMaker ML elegibles, como SageMaker Studio Classic Notebook, SageMaker On-Demand Notebook, SageMaker Processing, SageMaker Data Wrangler, SageMaker Training, SageMaker Real-Time Inference y SageMaker Batch Transform, independientemente de la familia, el tamaño o la región de la instancia. Por ejemplo, puede cambiar el uso de una instancia CPU ml.c5.xlarge que se ejecute en EE. UU. Este (Ohio) a una instancia ML.inf1 en EE. UU. Oeste (Oregón) para cargas de trabajo de inferencia en cualquier momento y seguir pagando automáticamente el precio de Savings Plans.

  • SageMaker Inference tiene más de 70 tipos y tamaños de instancias que se pueden usar para implementar modelos de aprendizaje automático, entre los que se incluyen AWS Conjuntos de chips Inferentia y Graviton optimizados para el aprendizaje automático. Elegir la instancia adecuada para su modelo le ayuda a garantizar que dispone de la instancia de mayor rendimiento al menor coste para sus modelos.

  • Al usar Inference Recommender, puede comparar rápidamente diferentes instancias para comprender el rendimiento del modelo y los costes. Con estos resultados, puede elegir la instancia que desea implementar con la mejor rentabilidad de la inversión.

  • Sin el escalado automático, debe aprovisionar los picos de tráfico o el riesgo de no disponibilidad del modelo. A menos que el tráfico de su modelo se mantenga estable durante todo el día, habrá un exceso de capacidad no utilizada. Esto conduce a una baja utilización y al despilfarro de recursos.

  • El escalado automático es una out-of-the-box función que monitorea las cargas de trabajo y ajusta dinámicamente la capacidad para mantener un rendimiento estable y predecible al menor coste posible. Cuando la carga de trabajo aumenta, el escalado automático proporciona más instancias en línea. Cuando la carga de trabajo disminuye, el escalado automático elimina las instancias innecesarias, lo que le ayuda a reducir los costes informáticos. Para obtener más información, consulte Configuración de puntos de enlace de inferencia de escalado automático en Amazon en SageMaker AWS Blog de Machine Learning.