View a markdown version of this page

Personalización de Amazon Nova en SageMaker HyperPod - Amazon Nova

Personalización de Amazon Nova en SageMaker HyperPod

Puede personalizar los modelos de Amazon Nova, incluidos los modelos de Amazon Nova 2.0 mejorados, con las fórmulas de Amazon Nova y entrenarlos en HyperPod. Una fórmula es un archivo de configuración YAML que proporciona detalles a SageMaker AI sobre cómo ejecutar el trabajo de personalización de modelos. SageMaker HyperPod admite dos tipos de servicios: Forge y no Forge.

HyperPod ofrece computación de alto rendimiento con instancias de GPU optimizadas y almacenamiento en Amazon FSx para Lustre, supervisión sólida mediante integración con herramientas como TensorBoard, administración flexible de puntos de control para mejorar las iteraciones, implementación fluida en Amazon Bedrock para tareas de inferencia y entrenamiento distribuido eficiente y escalable de varios nodos. Todo esto funciona de manera conjunta para brindar a las organizaciones un entorno seguro, eficaz y flexible en el que puedan adaptar los modelos de Amazon Nova a sus requisitos empresariales específicos.

La personalización de Amazon Nova en SageMaker HyperPod almacena los artefactos del modelo, como los puntos de control del modelo, en un bucket de Amazon S3 administrado por el servicio. Los artefactos del bucket administrado por el servicio se cifran con claves de AWS KMS administradas por SageMaker AI. Los buckets de Amazon S3 administrados por servicios no son compatibles actualmente con el cifrado de datos utilizando claves administradas por el cliente. Puede usar esta ubicación de punto de control para trabajos de evaluación o inferencias de Amazon Bedrock.

Se pueden aplicar precios estándar a instancias de cómputo, almacenamiento de Amazon S3 y FSx para Lustre. Para obtener información detallada sobre los precios, consulte HyperPod pricing, Precios de Amazon S3 y Precios de Amazon FSx para Lustre.

Requisitos de computación de los modelos de Amazon Nova 2

En las siguientes tablas, se resumen los requisitos de computación de los trabajos de entrenamiento de SageMaker HyperPod y SageMaker AI para los modelos de Amazon Nova 2.

Requisitos de entrenamiento de Nova 2

Técnica de entrenamiento

Instancias mínimas

Tipo de instancia

Recuento de GPU

Notas

Modelos compatibles

SFT (LoRA)

4

P5.48xlarge

16

Refinamiento eficiente de parámetros

Nova 2 Lite

SFT (rango completo)

4

P5.48xlarge

32

Refinamiento de modelos completo

Nova 2 Lite

RFT en trabajos de entrenamiento de SageMaker (LoRA)

2

P5.48xlarge

16

Funciones de recompensas personalizadas en su entorno de AWS

Nova 2 Lite

RFT en trabajos de entrenamiento de SageMaker (rango completo)

4

P5.48xlarge

32

Longitud del contexto: 32 000

Nova 2 Lite

RFT en SageMaker HyperPod

8

P5.48xlarge

64

Longitud del contexto predeterminada: 8192

Nova 2 Lite

CPT

4

P5.48xlarge

16

Procesamiento de aproximadamente 400 millones de tokens por instancia al día

Nova 2 Lite

Para optimizar los flujos de trabajo de personalización de modelos de Amazon Nova en Hyperpod, siga estas prácticas recomendadas para un entrenamiento eficiente, la administración de recursos y una implementación exitosa del modelo.

Prácticas recomendadas para la personalización de Amazon Nova

Descripción general

Esta sección proporciona información general sobre las técnicas de personalización y le permite elegir el mejor enfoque para sus necesidades y los datos disponibles.

Dos fases del entrenamiento de LLM

El entrenamiento de modelos de lenguaje de gran tamaño consta de dos fases principales: el entrenamiento previo y el posterior. Durante el entrenamiento previo, el modelo procesa fragmentos de texto sin procesar y los optimiza para la predicción del siguiente token. Este proceso crea un completador de patrones que absorbe la sintaxis, la semántica, los hechos y los patrones de razonamiento de la web y del texto seleccionado. Sin embargo, el modelo entrenado previamente no comprende las instrucciones, los objetivos del usuario ni el comportamiento adecuado para el contexto. Continúa el texto en cualquier estilo que se adapte a la distribución del entrenamiento. Un modelo entrenado previamente completa automáticamente en lugar de seguir las instrucciones, produce un formato incoherente y puede reflejar sesgos no deseados o contenido inseguro de los datos de entrenamiento. El entrenamiento previo desarrolla la competencia general, no la utilidad de las tareas.

El entrenamiento posterior transforma al completador de patrones en un asistente útil. Se llevan a cabo varias rondas de refinamiento supervisado (SFT) para enseñar al modelo a seguir las instrucciones, cumplir con los esquemas y las políticas, llamar a herramientas y producir salidas fiables mediante la imitación de demostraciones de alta calidad. Esta alineación enseña al modelo a responder a las peticiones como tareas en lugar de responder como texto para continuar. A continuación, se aplica el refinamiento por refuerzo (RFT) para optimizar el comportamiento mediante comentarios medible (por ejemplo, verificadores o un LLM como juez), lo que equilibra las ventajas y desventajas, como la precisión frente a la brevedad, la seguridad frente a la cobertura, o el razonamiento en varios pasos bajo restricciones. En la práctica, se alternan el SFT y el RFT en ciclos para convertir el modelo entrenado previamente en un sistema fiable y alineado con las políticas que lleva a cabo tareas complejas de forma coherente.

Elección del enfoque de personalización correcto

En esta sección, trataremos las estrategias de personalización del entrenamiento posterior: RFT y SFT.

Refinamiento por refuerzo (RFT)

El refinamiento por refuerzo mejora el rendimiento del modelo mediante señales de comentarios (puntuaciones medibles o recompensas que indican la calidad de la respuesta) en lugar de una supervisión directa con respuestas exactas y correctas. A diferencia del refinamiento supervisado tradicional, que aprende de los pares de entradas y salidas, el RFT utiliza funciones de recompensas para evaluar las respuestas del modelo y lo optimiza de forma iterativa para maximizar estas recompensas. Este enfoque funciona bien para tareas en las que es difícil definir la salida exacta correcta, pero le permite medir de forma fiable la calidad de la respuesta. El RFT permite a los modelos aprender comportamientos y preferencias complejos mediante pruebas y comentarios, lo que lo hace ideal para aplicaciones que requieren una toma de decisiones matizada, una resolución de problemas creativa o el cumplimiento de criterios de calidad específicos que se puedan evaluar mediante programación. Por ejemplo, responder a preguntas legales complejas es un caso de uso ideal para el RFT, ya que se quiere enseñar al modelo a razonar mejor para responder a las preguntas con mayor precisión.

Funcionamiento

En el refinamiento por refuerzo, se parte de una línea de base ajustada a las instrucciones y se trata cada petición como si fuera un pequeño torneo. Para una entrada determinada, se toman muestras de varias respuestas candidatas del modelo, se puntúa cada una con la función de recompensa y, a continuación, se clasifican dentro de ese grupo. El paso de actualización empuja al modelo a hacer que los candidatos con mayor puntuación tengan más probabilidades la próxima vez y que los que obtengan puntuaciones más bajas sean menos probables, mientras que la restricción de mantenerse cerca de la línea de base evita que el comportamiento se desvíe o se vuelva detallado o explotador. Este ciclo se repite a lo largo de muchas peticiones, se actualizan los casos difíciles, se endurecen los verificadores o se juzgan las rúbricas cuando se detectan vulnerabilidades y se hace un seguimiento continuo de las métricas de las tareas.

Cuándo se debe usar el RFT

Las tareas que más se benefician del RFT comparten varias características. Tienen señales de éxito cuantificables incluso cuando es difícil especificar una única salida correcta. Admiten un crédito parcial o una calificación de calidad, por lo que puede clasificar las mejores respuestas frente a las peores dentro de una petición o mediante una función de recompensa. Implican varios objetivos que deben equilibrarse (como la precisión con la brevedad, la claridad, la seguridad o el costo). Exigen el cumplimiento de restricciones explícitas que se pueden comprobar mediante programación. Funcionan en entornos mediados por herramientas o basados en el entorno en los que los resultados son observables (éxito o error, latencia, uso de recursos). Ocurren en regímenes con pocas etiquetas, en los que la recolección de objetivos de oro es cara, pero los comentarios automatizados o basados en rúbricas es abundante. El RFT funciona mejor cuando se puede convertir la calidad en un valor escalar o una clasificación fiable y se quiere que el modelo amplifique de forma preferencial los comportamientos con puntuaciones más altas sin necesidad de etiquetar objetivos de forma exhaustiva.

Considere el uso de otros métodos cuando:

  • Tenga pares de entrada-salida etiquetados abundantes y fiables: utilice el SFT.

  • La principal brecha sea el conocimiento o la jerga: utilice la generación aumentada por recuperación (RAG)

  • La señal de recompensa sea ruidosa o poco fiable y no pueda corregirla con mejores rúbricas o comprobadores: estabilícela antes del RFT

Cuándo no utilizar el RFT

Evite el RFT en las siguientes situaciones:

  • Puede producir pares de entrada-salida etiquetados y fiables de forma económica (el SFT es más sencillo, económico y estable).

  • La brecha es el conocimiento o la jerga y no el comportamiento (utilice la RAG).

  • La señal de recompensa es ruidosa, dispersa, fácil de manipular, cara o lenta de calcular (corrija antes el evaluador).

  • El rendimiento de la línea de base es casi nulo (arranque con el SFT antes de optimizar las preferencias).

  • La tarea tiene esquemas deterministas, un formato estricto o una única respuesta correcta (el SFT o la validación basada en reglas funcionan mejor).

  • Los presupuestos ajustados de latencia o costos no pueden absorber el muestreo o la exploración adicionales que requiere el RFT.

  • Las restricciones de seguridad o políticas no se especifican con precisión ni se pueden aplicar en la recompensa.

Si puede apuntar a “la respuesta correcta”, utilice el SFT. Si necesita nuevos conocimientos, utilice la RAG. Utilice el RFT solo después de tener una línea de base sólida y una función de recompensa robusta, rápida y difícil de explotar.

Refinamiento supervisado (SFT)

El refinamiento supervisado entrena al LLM con un conjunto de datos de pares de entrada-salida etiquetados por humanos para la tarea. Se proporcionan ejemplos de peticiones (preguntas, instrucciones, etc.) junto con las respuestas correctas o deseadas y se continúa entrenando al modelo con estos ejemplos. El modelo ajusta las ponderaciones para minimizar una pérdida supervisada (suele ser una entropía cruzada entre sus predicciones y los tokens de respuesta objetivo). Es el mismo entrenamiento que se utiliza en la mayoría de las tareas de machine learning supervisadas, que se aplica para especializar un LLM.

El SFT cambia el comportamiento, no el conocimiento. No enseña al modelo nuevos hechos o jerga que no haya visto en el entrenamiento previo. Enseña al modelo cómo responder, no qué saber. Si necesita nuevos conocimientos de dominio (como la terminología interna), utilice la generación aumentada por recuperación (RAG) para proporcionar ese contexto en el momento de la inferencia. A continuación, el SFT agrega el comportamiento de seguimiento de instrucciones deseado en la parte superior.

Funcionamiento

El SFT optimiza el LLM al minimizar la pérdida media de entropía cruzada en los tokens de respuesta, tratar los tokens de petición como contexto y ocultarlos de la pérdida. El modelo internaliza el estilo, la estructura y las reglas de decisión del objetivo, y aprende a generar la forma correcta de completar cada petición. Por ejemplo, para clasificar los documentos en categorías personalizadas, se refina el modelo con peticiones (el texto del documento) y terminaciones etiquetadas (las etiquetas de las categorías). Se entrena con esos pares hasta que el modelo muestre la etiqueta correcta para cada petición con una probabilidad alta.

Puede llevar a cabo el SFT con tan solo unos cientos de ejemplos y escalarlo hasta unos cientos de miles. Las muestras del SFT deben ser de alta calidad y estar directamente alineadas con el comportamiento deseado del modelo.

Cuándo usar el SFT

Utilice el SFT cuando tenga una tarea bien definida con las salidas deseadas claras. Si puede decir explícitamente “Con una entrada X, la salida correcta es Y” y puede recopilar ejemplos de este tipo de asignaciones, el refinamiento supervisado es una buena opción. El SFT sobresale en los siguientes escenarios:

  • Tareas de clasificación estructuradas o complejas: clasifique documentos internos o contratos en muchas categorías personalizadas. Con el SFT, el modelo aprende estas categorías específicas mejor que con peticiones por sí solas.

  • Tareas de respuesta a preguntas o de transformación con respuestas conocidas: refine un modelo para que responda a preguntas de la base de conocimientos de una empresa o convierta datos de un formato a otro, en el que cada entrada tenga una respuesta correcta.

  • Formato y estilo coherentes: entrene al modelo para que responda siempre en un formato o tono determinado mediante el refinamiento de los ejemplos del formato o tono correctos. Por ejemplo, si se entrena con pares de petición-respuesta que reflejan la voz de una marca concreta, se puede enseñar al modelo a generar salidas con ese estilo. El comportamiento de seguimiento de instrucciones suele enseñarse inicialmente mediante el SFT con ejemplos seleccionados que demuestran cómo debe comportarse un buen asistente.

El SFT es la forma más directa de enseñarle a un LLM una nueva habilidad o comportamiento cuando se puede especificar cuál es el comportamiento correcto. Utiliza la comprensión lingüística existente del modelo y la centra en la tarea. Utilice el SFT cuando desee que el modelo haga algo específico y tenga o pueda crear un conjunto de datos de ejemplos.

Utilice el SFT cuando pueda reunir pares de peticiones y respuestas de alta calidad que reflejen fielmente el comportamiento deseado. Encaja con tareas con objetivos claros o formatos deterministas, como esquemas, llamadas de funciones o herramientas y respuestas estructuradas en las que la imitación es una señal de entrenamiento adecuada. El objetivo es moldear el comportamiento: enseñar al modelo a tratar las peticiones como tareas, seguir instrucciones, adoptar políticas de tono y rechazo y producir un formato coherente. Planifique al menos cientos de demostraciones en las que la calidad, la coherencia y la deduplicación de datos sean más importantes que el volumen bruto. Para llevar a cabo una actualización sencilla y rentable, utilice métodos eficientes en cuanto a parámetros, como la adaptación de rango bajo, para entrenar adaptadores pequeños mientras deja intacta la mayor parte de la estructura básica.

Cuándo no utilizar el SFT

No utilice el SFT cuando la brecha se deba al conocimiento y no al comportamiento. No enseña al modelo nuevos hechos, jerga ni eventos recientes. En esos casos, utilice la generación aumentada por recuperación para llevar conocimiento externo a la inferencia. Evite el SFT cuando pueda medir la calidad, pero no pueda etiquetar una sola respuesta correcta. Utilice el refinamiento por refuerzo con recompensas verificables o con un LLM como juez para optimizar esas recompensas directamente. Si sus necesidades o su contenido cambian con frecuencia, confíe en la recuperación y el uso de las herramientas en lugar de volver a entrenar el modelo.