Entrenamiento previo continuo y entrenamiento intermedio
nota
Recibirá la documentación detallada cuando se suscriba.
El CPT de Nova Forge ofrece capacidades avanzadas que van más allá del CPT estándar, como el acceso a puntos de control intermedios y la combinación de datos con el corpus de entrenamiento previo de Nova. Estas características permiten una adaptación más eficiente al dominio y una mejor conservación de las capacidades generales del modelo.
¿Qué son los puntos de control intermedios y por qué son necesarios?
Los puntos de control intermedios son instantáneas del modelo Amazon Nova guardadas en diferentes etapas del entrenamiento previo, antes de que el modelo alcance su estado final listo para la producción. Durante el desarrollo del modelo, Amazon Nova se somete a varias fases de entrenamiento: entrenamiento previo inicial con un ritmo de aprendizaje constante, reducción del ritmo de aprendizaje, entrenamiento con ampliación del contexto y, por último, adaptación orientada al seguimiento de instrucciones y entrenamiento en seguridad. En el CPT, los puntos de control intermedios suelen ser preferibles al punto de control final de producción, ya que son más plásticos y receptivos a la adaptación al dominio. El punto de control de producción se ha sometido a una amplia adaptación para seguir instrucciones y a un riguroso entrenamiento en seguridad, lo que optimiza el modelo para un uso conversacional general, pero puede hacer que se resista a aprender nuevos patrones específicos de un dominio durante el CPT. En cambio, los puntos de control de solo texto parcial y completamente preentrenados retienen las características del modelo antes del entrenamiento. No cuentan con una orientación marcada hacia comportamientos específicos, lo que los convierte en puntos de partida más eficientes para la adaptación al dominio. Al realizar un CPT a gran escala (más de 10 000 millones de tokens), partir de puntos de control intermedios suele dar como resultado una convergencia más rápida, un entrenamiento más constante y una adquisición más eficaz del conocimiento del dominio. Sin embargo, en el caso del CPT a pequeña escala (menos de 10 000 millones de tokens), o cuando sea necesario conservar las capacidades de seguimiento de instrucciones, el punto de control de producción puede ser más apropiado, ya que permite la adaptación al dominio y, al mismo tiempo, mantiene las capacidades de conversación del modelo.
El CPT necesita varios puntos de control intermedios, ya que ofrecen diferentes niveles de plasticidad del modelo que repercuten en la eficiencia con la que el modelo puede absorber nuevos conocimientos del dominio. El punto de control final de producción se ha sometido a una amplia adaptación para seguir instrucciones y a un riguroso entrenamiento en seguridad, lo que optimiza el modelo para un uso conversacional general, pero hace que este se resista a aprender nuevos patrones específicos de un dominio. En otras palabras, se ha ido endureciendo a través del entrenamiento posterior. En cambio, los puntos de control anteriores retienen las características previas al entrenamiento del modelo y no se han centrado demasiado en comportamientos específicos, lo que los hace más plásticos y receptivos a la adaptación al dominio.
Para lograr la máxima eficiencia en el entrenamiento, se proporcionan varios puntos de control intermedios.
¿Qué puntos de control hay disponibles?
Nova 2.0
Hay tres puntos de control de Amazon Nova Lite 2.0:
-
PRE-TRAINED [
nova-lite-2/pretraining-text-RD]: este es el punto de control tras el ritmo de aprendizaje constante y las etapas de reducción del entrenamiento previo de Amazon Nova, en las que el modelo se entrena con billones de tokens. -
MID-TRAINED [
nova-lite-2/pretraining-text-CE]: este punto de control permite introducir volúmenes intermedios de datos no estructurados con un ritmo de aprendizaje más conservador que el del entrenamiento previo, lo que permite integrar conocimiento específico del dominio y evitar el olvido catastrófico. -
POST-TRAINED [
nova-lite-2/prod]: este es el punto de control final totalmente adaptado del modelo, que ha seguido todos los pasos pertinentes y posteriores del entrenamiento.
La siguiente tabla detalla las diferentes condiciones para el entrenamiento previo e intermedio.
Tipo de datos |
Realización |
Con punto de control |
|---|---|---|
Datos de dominio sin procesar no estructurados a gran escala (documentos, registros, artículos, código, etc.) |
Entrenamiento previo continuo |
Entrenamiento previo |
Datos de dominio sin procesar no estructurados a gran escala (documentos, registros, artículos, código, etc.) |
Entrenamiento intermedio |
Entrenamiento previo |
Volúmenes más pequeños de datos sin procesar no estructurados. Rastros de razonamiento estructurado y datos de CoT |
Entrenamiento intermedio |
Entrenamiento intermedio |
Demostraciones estructuradas (pares de entradas y salidas de alta calidad, instrucciones de tareas seleccionadas, diálogos de varios turnos) |
Refinamiento completo |
Entrenamiento intermedio |
Demostraciones estructuradas (pares de entradas y salidas de alta calidad, instrucciones de tareas seleccionadas, diálogos de varios turnos) |
Refinamiento eficiente de parámetros (PEFT) |
Entrenamiento posterior |
¿Qué punto de control usar?
Los puntos de control de solo texto parcial y completamente preentrenados suelen converger más rápido y requieren menos pasos de entrenamiento para la adaptación al dominio. Sin embargo, no cuentan con refinamiento mediante instrucciones y necesitarían someterse a etapas posteriores de entrenamiento para poder realizar tareas útiles y seguir instrucciones. Es posible que el punto de control de disponibilidad general requiera más pasos para adaptarse, pero proporciona un punto de partida más seguro para experimentos a pequeña escala y mantendrá algunas de sus capacidades posteriores al entrenamiento incluso después del entrenamiento con CPT.
Por lo general, si se trata de conjuntos de datos de entrenamiento de gran tamaño (más de 10 000 millones de tokens), se debe empezar por puntos de control que contengan solo texto preentrenados parcial o totalmente para lograr un entrenamiento más eficiente y estable, ya que la base de conocimientos del modelo se modificará sustancialmente. Con conjuntos de datos pequeños (menos de 10 000 millones de tokens), utilice el punto de control de disponibilidad general para conservar la capacidad de seguir las instrucciones y, al mismo tiempo, adaptarse al dominio.
¿Cómo se utiliza la mezcla de datos para Nova 2.0?
Al realizar el CPT con datos de un dominio nuevo, resulta muy beneficioso mezclar los nuevos datos con algunos de los datos utilizados anteriormente en la fase de entrenamiento previo del modelo. La mezcla de datos antiguos con datos de dominio nuevos resuelve dos problemas:
-
Control sobre olvidos: evita un olvido catastrófico al preservar las habilidades y los conocimientos existentes del modelo. Si no se combinan los datos, el entrenamiento exclusivo con datos de dominio limitado hace que el modelo sobrescriba las capacidades generales. Por ejemplo, un modelo entrenado únicamente con documentos legales podría perder su capacidad para programar o realizar operaciones matemáticas. Al mezclar conjuntos de datos de dominio general, se conservan estas habilidades generales mientras se adquiere un nuevo dominio.
-
Estabilidad de la optimización: mantiene la estabilidad del entrenamiento anclando las representaciones internas del modelo. Durante el CPT, las características aprendidas del modelo se modifican y la mezcla de datos proporciona gradientes de diversos orígenes que guían esta adaptación sin problemas. Sin este mecanismo, entrenar sobre distribuciones estrechas puede provocar inestabilidad en los gradientes, haciendo que las representaciones del modelo cambien de forma demasiado drástica y dando lugar a divergencia en el entrenamiento, picos en la pérdida o colapso de capacidades existentes. Esta es la disyuntiva entre estabilidad y plasticidad: el modelo debe ser lo suficientemente plástico como para aprender nuevos conocimientos, pero lo suficientemente estable como para olvidar o corromper lo que ya conoce.
Capacidades de mezcla de datos del CPT de Nova
El acceso a los datos y puntos de control de entrenamiento previo de Amazon Nova es una de las principales ofertas de personalización del CPT de Amazon Nova. La personalización del CPT de Amazon Nova permite mezclar fácilmente los datos de dominio con el corpus de entrenamiento previo de Amazon Nova. Además, la proporción de muestras de las categorías de datos específicas de Amazon Nova (por ejemplo, código, matemáticas, razonamiento, etc.) se puede cambiar y sus proporciones se pueden controlar para complementar los datos de dominio. Esto permite reforzar las capacidades para adaptarlas a casos de uso concretos y, al mismo tiempo, adaptar el modelo al dominio específico.
Cómo lograr la proporción de mezcla óptima
La proporción óptima entre los datos de Amazon Nova y los datos de dominio depende del dominio, la complejidad, el tamaño y la calidad del conjunto de datos y de la importancia de mantener las capacidades generales. Esta proporción debe descubrirse mediante la experimentación. El siguiente es un marco experimental para determinar la cantidad de datos de Amazon Nova que se van a mezclar.
Seleccione un subconjunto representativo de datos de dominio (por ejemplo, 5000 millones de tokens) y manténgalo constante en todas las iteraciones experimentales.
Realice experimentos de CPT a pequeña escala variando solo la cantidad de datos de Amazon Nova mezclados:
-
Sin mezcla: 100 % datos de dominio → 5000 millones de datos de dominio únicamente (5000 millones en total)
-
Poca mezcla: 90 % datos de dominio → 5000 millones de datos de dominio + ~560 millones de datos de Amazon Nova (~5560 millones en total)
-
Mezcla intermedia: 70 % datos de dominio → 5000 millones de datos de dominio + ~2140 millones de datos de Amazon Nova (~7140 millones en total)
-
Mezcla importante: 50 % datos de dominio → 5000 millones de datos de dominio + 5000 millones de datos de Amazon Nova (10 000 millones en total)
Evalúe cada punto de control en función de los pruebas comparativas internas y generales del dominio. Evalúe también el punto de control inicial (punto de control de Amazon Nova antes de cualquier entrenamiento).
-
¿El rendimiento del dominio del cliente se mantiene prácticamente constante a lo largo de las iteraciones? Por lo general, debería ser así, ya que en cada iteración se utilizó la misma cantidad de tokens de dominio. Si el rendimiento del dominio mejora con una mayor mezcla, los datos de Amazon Nova proporcionan una regularización útil.
-
¿Mejoran las puntuaciones de referencia generales a medida que aumenta la mezcla?
-
El comportamiento esperado es que las capacidades generales mejoren monótonamente conforme se agreguen más datos de Amazon Nova.
-
Haga pruebas comparativas generales para medir los resultados: MMLU (conocimientos generales), HumanEval (programación), GSM8K (matemáticas) o pruebas comparativas específicas de interés.
-
-
Seleccione la proporción de mezcla que garantice un buen rendimiento en el dominio, ofrezca capacidades generales aceptables para distintos casos de uso. Tenga en cuenta el costo adicional del entrenamiento y mezcle más datos.
Cuando se haya identificado la proporción de mezcla óptima, lleve a cabo el CPT a gran escala utilizando el conjunto de datos de dominio completo con la proporción de mezcla seleccionada.
Análisis de las categorías de mezcla de datos
A continuación, analizamos cada categoría disponible en la mezcla de datos para que pueda tomar la mejor decisión sobre qué categorías de datos deberían participar en la mezcla de datos general.
¿Cómo habilitar la mezcla de datos?
Agregue la sección data_mixing a la fórmula con la distribución porcentual adecuada entre las categorías del conjunto de datos. La suma de los porcentajes de nova_data debe ser 100.
Configuración de Nova 2.0 con la mezcla de datos
# Note: # This recipe can run on p5.48xlarge # Run config display_name: "Nova Lite Pretrain on P5 GPU" versions: ["2.0"] instance_types: ["ml.p5.48xlarge"] run: name: "my-cpt-run" # A descriptive name for your training job model_type: "amazon.nova-2-lite-v1:0:256k" # Model variant specification, do not change model_name_or_path: "nova-lite-2/prod" # Base model path, do not change replicas: 8 # Number of compute instances for training, allowed values are 4, 8, 16, 32 data_s3_path: "" # Customer data paths validation_data_s3_path: "" # Customer validation data paths output_s3_path: "" # Output artifact path, SageMaker HyperPod job-specific configuration - not compatible with standard SageMaker Training jobs ## Training specific configs training_config: task_type: cpt max_length: 8192 # Maximum context window size (tokens) global_batch_size: 64 # Global batch size, allowed values are 32, 64, 128, 256. trainer: max_steps: 10 # The number of training steps to run total val_check_interval: 10 # The number of steps between running validation limit_val_batches: 2 # Batches of the validation set to use each trigger model: hidden_dropout: 0.0 # Dropout for hidden states, must be between 0.0 and 1.0 attention_dropout: 0.0 # Dropout for attention weights, must be between 0.0 and 1.0 optim: optimizer: adam lr: 1e-5 # Learning rate name: distributed_fused_adam # Optimizer algorithm, do not change adam_w_mode: true # Enable AdamW mode eps: 1e-06 # Epsilon for numerical stability weight_decay: 0.0 # L2 regularization strength, must be between 0.0 and 1.0 adam_beta1: 0.9 # Beta1 for Adam optimizer adam_beta2: 0.95 # Beta2 for Adam optimizer sched: warmup_steps: 10 # Learning rate warmup steps constant_steps: 0 # Steps at constant learning rate min_lr: 1e-6 # Minimum learning rate, must be lower than lr data_mixing: dataset_catalog: cpt_text_lite sources: nova_data: # percent inputs for Nova data must sum to 100%; use 0% if you want to exclude a data grouping agents: 20 business-and-finance: 4 scientific: 10 code: 5 factual-and-news: 5 longform-text: 6 health-and-medicine: 1 humanities-and-education: 1 legal: 1 math: 9 additional-languages: 15 social-and-personal-interest: 11 entertainment: 0.5 reasoning: 10 other: 0.5 tables: 1 customer_data: # percent input of customer data. 100 = use only customer data, 0 = use only the nova_data mix above percent: 25
Qué significan estas categorías
Nota: Nova 2.0 incluye categorías adicionales específicas de su capacidad de razonamiento (por ejemplo, reasoning-code, reasoning-math y reasoning-instruction-following) que no están disponibles en Nova 1.0.
Resumen de categorías y etiquetas informativas:
| Nombre de la categoría | Información |
|---|---|
agents |
Datos de entrenamiento centrados en la toma de decisiones autónoma, la finalización de tareas y el comportamiento orientado a los objetivos en los sistemas de IA. |
baseline |
Datos lingüísticos fundamentales centrados en la comprensión general, la comunicación básica y las capacidades lingüísticas troncales. |
chat |
Intercambios conversacionales que muestran el flujo natural del diálogo, un contexto coherente a lo largo de todo el intercambio y las interacciones sociales apropiadas. |
code |
Código fuente de programación, documentación y debates técnicos que abarcan diversos lenguajes de programación y plataformas. |
factuality |
Información verificada y materiales de referencia centrados en la precisión, la validación de fuentes y la evaluación de la veracidad. |
identity |
Marcos de personalidad y patrones de comportamiento centrados en rasgos de carácter, valores y estilos de interacción consistentes. |
long-context |
Narrativas complejas y textos extensos centrados en mantener la coherencia y la relevancia en largos intercambios. |
math |
Contenido matemático que incluye libros de texto, problemas, soluciones y debates matemáticos. |
rai |
Casos y escenarios que enfatizan los principios de la IA ética, los aspectos que se deben tener en cuenta en materia de seguridad y la implementación responsable de la tecnología. |
instruction-following |
Ejemplos de pasos precisos para completar tareas en función de distintos niveles de peticiones e indicaciones del usuario. |
stem |
Contenido técnico sobre ciencia, tecnología, ingeniería y matemáticas, incluidos conceptos teóricos y de resolución de problemas. |
planning |
Secuencias que demuestran el pensamiento estratégico, el desglose paso a paso de las tareas y la asignación eficiente de los recursos. |
reasoning-chat |
Escenarios de diálogo analítico centrados en el debate lógico y los flujos de conversación estructurados. |
reasoning-code |
Desafíos de programación y problemas algorítmicos centrados en el desarrollo sistemático de soluciones. |
reasoning-factuality |
Escenarios de evaluación de la información centrados en los procesos críticos de evaluación y verificación. |
reasoning-instruction-following |
Análisis de tareas complejas centrado en la interpretación sistemática y la realización de tareas de forma metódica. |
reasoning-math |
Escenarios matemáticos de resolución de problemas centrados en la progresión lógica y las estrategias de solución. |
reasoning-planning |
Escenarios de toma de decisiones estratégicas centrados en un enfoque sistemático para el cumplimiento de objetivos. |
reasoning-rag |
Escenarios de recuperación y síntesis de información centrados en la comprensión contextual y la aplicación pertinente. |
reasoning-rai |
Escenarios de toma de decisiones éticas centrados en la evaluación sistemática de la seguridad y la equidad de la IA. |
reasoning-stem |
Escenarios científicos de resolución de problemas centrados en el análisis metódico y el desarrollo de soluciones. |
rag |
Ejemplos de cómo combinar eficazmente el conocimiento externo recuperado con las respuestas generadas para proporcionar información contextual precisa. |
translation |
Combinaciones de contenido multilingüe que muestran una traducción precisa y, al mismo tiempo, conservan el contexto, el tono y los matices culturales. |
Guía de parámetros
-
dataset_catalog: el único valor es cpt_text_lite por ahora, hasta que habilitemos el entrenamiento multimodal.
-
nova_data: porcentaje de las categorías individuales de datos de Nova cuando se mezclan. Deberían sumar 1,0.
-
customer_data: el porcentaje de datos del cliente mezclados con los datos de Nova.
El número total de tokens utilizados en el entrenamiento se puede calcular de esta forma: max_length * global_batch_size * max_steps
Limitaciones
El CPT actual solo admite datos de texto y no admite ningún conjunto de datos multimodales de clientes.