Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Optimización de inferencias para modelos de Amazon SageMaker AI

Modo de enfoque
Optimización de inferencias para modelos de Amazon SageMaker AI - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Con Amazon SageMaker AI, puede mejorar el rendimiento de sus modelos de IA generativa mediante la aplicación de técnicas de optimización de inferencias. Al optimizar los modelos, puede lograr una mejor relación costo-rendimiento para el caso de uso. Al optimizar un modelo, puede elegir las técnicas de optimización compatibles se van a aplicar, incluidas la cuantización, la decodificación especulativa y la compilación. Una vez optimizado el modelo, puede realizar una evaluación para ver las métricas de rendimiento en cuanto a latencia, rendimiento y precio.

Para muchos modelos, la SageMaker IA también ofrece varias versiones preoptimizadas, cada una de las cuales se adapta a las diferentes necesidades de las aplicaciones en cuanto a latencia y rendimiento. Para estos modelos, puede implementar una de las versiones optimizadas sin tener que primero optimizar el modelo.

Técnicas de optimización

Amazon SageMaker AI admite las siguientes técnicas de optimización.

Compilación

La compilación optimiza el modelo para obtener el mejor rendimiento disponible en el tipo de hardware elegido sin que se pierda la exactitud. Puede aplicar la compilación de modelos LLMs para optimizar el hardware acelerado, como las instancias de GPU, las instancias de AWS Trainium o las instancias de AWS Inferentia.

Cuando optimiza un modelo con la compilación, se beneficia de la compilación. ahead-of-time Reduces el tiempo de implementación del modelo y la latencia de autoescalado porque los pesos del modelo no requieren just-in-time compilación cuando el modelo se implementa en una nueva instancia.

Si eliges compilar tu modelo para una instancia de GPU, SageMaker AI usa la biblioteca TensorRT-LLM para ejecutar la compilación. Si eliges compilar tu modelo para una instancia de AWS Trainium o AWS Inferentia, SageMaker AI usa el SDK de Neuron para ejecutar la compilación. AWS

Cuantización

La cuantización es una técnica para reducir los requisitos de hardware de un modelo mediante el uso de un tipo de datos menos preciso para los ponderaciones y las activaciones. Después de optimizar un modelo con la cuantificación, puedes alojarlo en un modelo más económico y con mayor disponibilidad. GPUs Sin embargo, es posible que el modelo cuantizado sea menos preciso que el modelo de origen que ha optimizado.

Los formatos de datos que la SageMaker IA admite para la cuantificación varían de un modelo a otro. Entre los formatos admitidos se incluyen los siguientes:

  • INT4-AWQ: formato de datos de 4 bits. La cuantificación de peso basada en la activación (AWQ) es una técnica de cuantificación LLMs que es eficiente, precisa, con pocos bits y solo pesa.

  • FP8 — El punto flotante de 8 bits (FP8) es un formato de baja precisión para números de punto flotante. Equilibra la eficiencia de la memoria y la precisión del modelo al representar valores con menos bits que el formato de FP16 coma flotante estándar.

  • INT8- SmoothQuant — Formato de datos de 8 bits. SmoothQuant es un método de cuantificación de precisión mixta que escala las activaciones y las ponderaciones de forma conjunta equilibrando sus rangos dinámicos.

Decodificación especulativa

La decodificación especulativa es una técnica para acelerar el proceso de decodificación de grandes dimensiones. LLMs Optimiza la latencia de los modelos sin que se vea afectada la calidad del texto generado.

Esta técnica utiliza un modelo menor pero más rápido denominado modelo de borrador. El modelo de borrador genera tokens candidatos, que valida el modelo de destino, que es mayor pero más lento. En cada iteración, el modelo de borrador genera varios tokens candidatos. El modelo de destino verifica los tokens y, si detecta que un token en concreto no es aceptable, lo rechaza y lo vuelve a genera. Por lo tanto, el modelo de destino verifica los tokens y genera una pequeño número de ellos.

El modelo de borrador es bastante más rápido que el modelo de destino. Genera todos los tokens rápidamente y, a continuación, envía lotes de ellos al modelo de destino para su verificación. El modelo de destino los evalúa en paralelo, lo que acelera la respuesta final.

SageMaker La IA ofrece un modelo de borrador prediseñado que puedes usar, para que no tengas que construir el tuyo propio. Si prefieres usar tu propio modelo de borrador personalizado, SageMaker AI también admite esta opción.

Carga rápida del modelo

La técnica de carga rápida de modelos prepara un LLM para que la SageMaker IA pueda cargarlo en una instancia de ML con mayor rapidez.

Para preparar el modelo, la SageMaker IA lo fragmenta por adelantado dividiéndolo en partes, cada una de las cuales puede residir en una GPU independiente para realizar inferencias distribuidas. Además, la SageMaker IA almacena los pesos del modelo en fragmentos del mismo tamaño que la SageMaker IA puede cargar en la instancia de forma simultánea.

Cuando la SageMaker IA carga el modelo optimizado en la instancia, transmite los pesos del modelo directamente desde Amazon S3 a GPUs la instancia. Al transmitir las ponderaciones, la SageMaker IA omite varios pasos que suelen ser necesarios y que consumen mucho tiempo. Estos pasos incluyen descargar los artefactos del modelo de Amazon S3 al disco, cargar los artefactos del modelo en la memoria del host y fragmentar el modelo en el host antes de cargar finalmente los fragmentos en el. GPUs

Después de optimizar el modelo para una carga más rápida, puede implementarlo más rápidamente en un punto final de SageMaker IA. Además, si configura el punto final para que utilice el escalado automático, se ampliará más rápidamente para adaptarse a los aumentos de tráfico.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.