Pré-treinamento contínuo e treinamento intermediário
nota
A documentação detalhada é fornecida após a inscrição
O CTP do Nova Forge oferece recursos avançados além do CPT padrão, incluindo acesso a pontos de verificação intermediários e uma combinação de dados com o corpus de pré-treinamento do Nova. Esses recursos permitem uma adaptação mais eficiente do domínio e uma melhor preservação dos recursos gerais do modelo.
O que são pontos de verificação intermediários e por que eles são necessários?
Os pontos de verificação intermediários são snapshots do modelo do Amazon Nova salvos em diferentes etapas do pré-treinamento, antes que o modelo atinja seu estado final pronto para produção. Durante o desenvolvimento do modelo, o Amazon Nova passa por várias fases de treinamento: pré-treinamento inicial com taxa de aprendizado constante, redução da taxa de aprendizado, treinamento de extensão de contexto e, finalmente, treinamento de segurança e alinhamento para seguir as instruções. Para o CPT, os pontos de verificação intermediários geralmente são preferíveis ao ponto de verificação final de produção porque são mais plásticos e receptivos à adaptação do domínio. O ponto de verificação de produção passou por um extenso treinamento de segurança e alinhamento para seguir as instruções, o que otimiza o modelo para uso conversacional geral, mas pode torná-lo resistente ao aprendizado de novos padrões específicos de domínio durante o CPT. Por outro lado, os pontos de verificação somente com texto pré-treinado parcial e totalmente mantêm as características de pré-treinamento do modelo. Eles não foram fortemente orientados para comportamentos específicos, o que os torna pontos de partida mais eficientes para a adaptação de domínios. Ao realizar o CPT em grande escala (mais de 10 bilhões de tokens), começar nos pontos de verificação intermediários normalmente resulta em convergência mais rápida, melhor estabilidade de treinamento e aquisição de conhecimento de domínio mais eficaz. No entanto, para o CPT de pequena escala (menos de 10 bilhões de tokens), ou quando os recursos de seguimento de instruções precisam ser preservados, o ponto de verificação de produção pode ser mais apropriado, pois permite a adaptação do domínio, mantendo as habilidades de conversação do modelo.
Vários pontos de verificação intermediários são necessários para o CPT porque oferecem diferentes níveis de plasticidade do modelo que afetam a eficiência com que o modelo pode absorver novos conhecimentos de domínio. O ponto de verificação de produção passou por um extenso treinamento de segurança e alinhamento para seguir as instruções, o que o otimiza para uso conversacional geral, mas o torna resistente ao aprendizado de novos padrões específicos de domínio. Em outras palavras, foi reforçado durante o pós-treinamento. Em contraste, os pontos de verificação anteriores mantêm as características de pré-treinamento do modelo e não foram fortemente direcionados para comportamentos específicos, tornando-os mais plásticos e receptivos à adaptação do domínio.
Para obter a melhor eficiência de treinamento, vários pontos de verificação intermediários são fornecidos.
Quais pontos de verificação estão disponíveis?
Nova 2.0
Existem três pontos de verificação do Amazon Nova Lite 2.0.
-
PRÉ-TREINADO - [
nova-lite-2/pretraining-text-RD]: este é o ponto de verificação após a taxa de aprendizado constante e as etapas de desaceleração do pré-treinamento do Amazon Nova, em que o modelo é treinado em trilhões de tokens. -
TREINAMENTO INTERMEDIÁRIO - [
nova-lite-2/pretraining-text-CE]: este ponto de verificação permite que volumes intermediários de dados não estruturados sejam introduzidos com uma taxa de aprendizado mais conservadora do que o pré-treinamento, absorvendo o conhecimento específico do domínio e evitando o esquecimento catastrófico. -
PÓS-TREINADO - [
nova-lite-2/prod]: este é o ponto de verificação final totalmente alinhado do modelo que passou por todas as etapas pertinentes e posteriores ao treinamento.
A tabela a seguir detalha as diferentes condições para o pré-treinamento e o treinamento intermediário.
Tipo de dado |
Executar |
Com ponto de verificação |
|---|---|---|
Dados brutos de domínio não estruturados em grande escala (documentos, logs, artigos, código etc.) |
Pré-treinamento contínuo |
Pré-treinado |
Dados brutos de domínio não estruturados em grande escala (documentos, logs, artigos, código etc.) |
Treinamento intermediário |
Pré-treinado |
Volumes menores de dados brutos não estruturados. Rastros de raciocínio estruturado/dados de CoT |
Treinamento intermediário |
Treinamento intermediário |
Demonstrações estruturadas (pares de entrada e saída de alta qualidade, instruções de tarefas selecionadas, diálogos de várias etapas) |
Ajuste fino completo |
Treinamento intermediário |
Demonstrações estruturadas (pares de entrada e saída de alta qualidade, instruções de tarefas selecionadas, diálogos de várias etapas) |
Ajuste fino com eficiência de parâmetros |
Pós-treinado |
Qual ponto de verificação usar?
Pontos de verificação parcialmente e totalmente pré-treinados apenas com texto geralmente convergem mais rápido e exigem menos etapas de treinamento para adaptação de domínio. No entanto, eles não têm ajuste de instruções e precisariam passar por etapas de pós-treinamento para serem capazes de realizar tarefas úteis e seguir instruções. Um ponto de verificação GA pode exigir mais etapas para se adaptar, mas fornece um ponto de partida mais seguro para experimentos em pequena escala e manterá algumas de suas capacidades pós-treinamento, mesmo após o treinamento do CPT.
Em geral, com grandes conjuntos de dados de treinamento (mais de 10 bilhões de tokens), comece com pontos de verificação parcialmente ou totalmente pré-treinados somente com texto para um treinamento mais eficiente e estável, pois a base de conhecimento do modelo será substancialmente modificada. Com conjuntos de dados pequenos (menos de 10 bilhões de tokens), use o ponto de verificação GA para preservar os recursos de seguimento de instruções e, ao mesmo tempo, adaptar-se ao domínio.
Como usar a combinação de dados do Nova 2.0?
Ao realizar o CPT com dados de um novo domínio, é extremamente benéfico combinar os novos dados com alguns dos dados usados anteriormente na fase de pré-treinamento do modelo. Combinar dados antigos com dados de novos domínios soluciona dois problemas:
-
Esquecimento do controle: evita o esquecimento catastrófico, preservando as habilidades e o conhecimento existentes do modelo. Sem a combinação de dados, o treinamento exclusivo em dados de domínio restrito faz com que o modelo substitua os recursos gerais. Por exemplo, um modelo treinado somente em documentos legais pode perder a capacidade de codificar ou fazer cálculos. A combinação dos conjuntos de dados de domínio geral preserva essas habilidades gerais ao adquirir o novo domínio.
-
Estabilidade de otimização: mantém a estabilidade do treinamento servindo como uma âncora para as representações internas do modelo. Durante o CPT, os recursos aprendidos do modelo são modificados e a combinação de dados fornece gradientes de diversas fontes que orientam essa adaptação sem problemas. Sem isso, o treinamento em distribuições restritas pode causar instabilidade de gradiente, em que as representações do modelo mudam de forma significativa, levando a divergências de treinamento, picos de perda ou colapso dos recursos existentes. Este é o equilíbrio entre estabilidade e plasticidade: o modelo deve ser plástico o suficiente para aprender novos conhecimentos de domínio, mas estável o suficiente para não comprometer o que ele já sabe.
Recursos da combinação de dados do CTP do Nova
O acesso aos dados e pontos de verificação de pré-treinamento do Amazon Nova é uma das principais ofertas da personalização do CPT do Amazon Nova. A personalização do CPT do Amazon Nova permite a fácil combinação de dados de domínio com o corpus de pré-treinamento do Amazon Nova. Além disso, a proporção de amostragem das categorias de dados específicas do Amazon Nova (p. ex., código, cálculo, raciocínio etc.) pode ser alterada, e suas proporções podem ser controladas para complementar os dados do domínio. Isso permite o reforço de recursos que se alinham ao caso de uso e, ao mesmo tempo, adaptam o modelo ao domínio específico.
Busca pela proporção ideal da combinação
A proporção ideal de dados do Amazon Nova versus dados de domínio depende do domínio, da complexidade, do tamanho, da qualidade e da importância de manter os recursos gerais do conjunto de dados. Essa proporção deve ser descoberta por meio de experimentação. Abaixo, um framework experimental para decidir a quantidade de dados do Amazon Nova a serem combinados.
Selecione um subconjunto representativo de dados de domínio (p. ex., 5 bilhões de tokens) e mantenha isso constante em todas as execuções experimentais.
Execute experimentos de CPT em pequena escala variando apenas a quantidade de dados do Amazon Nova combinados em:
-
Nenhuma combinação: 100% domínio → 5B somente domínio (total de 5 bilhões)
-
Combinação leve: 90% domínio → 5B domínio + ~0,56B Amazon Nova (total de aproximadamente 5,56 bilhões)
-
Combinação média: 70% domínio → 5B domínio + ~2,14B Amazon Nova (total de aproximadamente 7,14 bilhões)
-
Combinação pesada: 50% domínio → 5B domínio +5B Amazon Nova (total de 10 bilhões)
Avalie cada ponto de verificação nas avaliações comparativas do domínio e do domínio geral. Avalie também o ponto de verificação inicial (ponto de verificação do Amazon Nova antes de qualquer treinamento).
-
A performance no domínio do cliente permanece praticamente constante em todas as execuções? Geralmente permanece, já que cada execução processou o mesmo número de tokens de domínio. Se a performance do domínio melhorar com mais combinação, os dados do Amazon Nova fornecerão uma regularização útil.
-
As pontuações gerais das avaliações comparativas melhoram à medida que a combinação aumenta?
-
O comportamento esperado é que os recursos gerais melhorem monotonicamente à medida que mais dados do Amazon Nova são adicionados.
-
Analise várias avaliações comparativas gerais: MMLU (conhecimento geral), HumanEval (codificação), GSM8K (cálculo) ou avaliações comparativas específicas de interesse.
-
-
Selecione a proporção de combinação que mantém a performance do domínio e, ao mesmo tempo, fornece recursos gerais aceitáveis para os casos de uso. Considere o custo adicional do treinamento com mais combinação de dados.
Depois que a proporção da combinação ideal for identificada, execute o CPT em grande escala usando o conjunto de dados de domínio completo com a proporção da combinação selecionada.
Dissecação das categorias de combinação de dados
Abaixo, dissecamos cada categoria disponível na combinação de dados para que você tome a melhor decisão sobre quais categorias de dados são as mais adequadas para serem representadas em sua combinação geral de dados.
Como habilitar a combinação de dados
Adicione a seção data_mixing à sua fórmula com a distribuição percentual apropriada nas categorias do conjunto de dados. As porcentagens de nova_data devem totalizar 100.
Configuração do Nova 2.0 com combinação de dados
# Note: # This recipe can run on p5.48xlarge # Run config display_name: "Nova Lite Pretrain on P5 GPU" versions: ["2.0"] instance_types: ["ml.p5.48xlarge"] run: name: "my-cpt-run" # A descriptive name for your training job model_type: "amazon.nova-2-lite-v1:0:256k" # Model variant specification, do not change model_name_or_path: "nova-lite-2/prod" # Base model path, do not change replicas: 8 # Number of compute instances for training, allowed values are 4, 8, 16, 32 data_s3_path: "" # Customer data paths validation_data_s3_path: "" # Customer validation data paths output_s3_path: "" # Output artifact path, SageMaker HyperPod job-specific configuration - not compatible with standard SageMaker Training jobs ## Training specific configs training_config: task_type: cpt max_length: 8192 # Maximum context window size (tokens) global_batch_size: 64 # Global batch size, allowed values are 32, 64, 128, 256. trainer: max_steps: 10 # The number of training steps to run total val_check_interval: 10 # The number of steps between running validation limit_val_batches: 2 # Batches of the validation set to use each trigger model: hidden_dropout: 0.0 # Dropout for hidden states, must be between 0.0 and 1.0 attention_dropout: 0.0 # Dropout for attention weights, must be between 0.0 and 1.0 optim: optimizer: adam lr: 1e-5 # Learning rate name: distributed_fused_adam # Optimizer algorithm, do not change adam_w_mode: true # Enable AdamW mode eps: 1e-06 # Epsilon for numerical stability weight_decay: 0.0 # L2 regularization strength, must be between 0.0 and 1.0 adam_beta1: 0.9 # Beta1 for Adam optimizer adam_beta2: 0.95 # Beta2 for Adam optimizer sched: warmup_steps: 10 # Learning rate warmup steps constant_steps: 0 # Steps at constant learning rate min_lr: 1e-6 # Minimum learning rate, must be lower than lr data_mixing: dataset_catalog: cpt_text_lite sources: nova_data: # percent inputs for Nova data must sum to 100%; use 0% if you want to exclude a data grouping agents: 20 business-and-finance: 4 scientific: 10 code: 5 factual-and-news: 5 longform-text: 6 health-and-medicine: 1 humanities-and-education: 1 legal: 1 math: 9 additional-languages: 15 social-and-personal-interest: 11 entertainment: 0.5 reasoning: 10 other: 0.5 tables: 1 customer_data: # percent input of customer data. 100 = use only customer data, 0 = use only the nova_data mix above percent: 25
O que essas categorias significam
Observação: o Nova 2.0 inclui categorias adicionais específicas de raciocínio (p. ex., reasoning-code, reasoning-math, reasoning-instruction-following) que não estão disponíveis no Nova 1.0.
Resumo das categorias e os rótulos de informações:
| Nome da categoria | Detalhes das informações |
|---|---|
agents |
Dados de treinamento focados na tomada de decisão autônoma, na conclusão de tarefas e no comportamento orientado a metas em sistemas de IA |
baseline |
Dados linguísticos fundamentais focados na compreensão geral, na comunicação básica e nas capacidades linguísticas essenciais |
chat |
Trocas conversacionais demonstrando um fluxo natural de diálogo, a manutenção do contexto e interações sociais apropriadas |
code |
Código fonte de programação, documentação e discussões técnicas de várias plataformas e linguagens de programação. |
factuality |
Materiais de referência e informações verificadas com foco na precisão, na validação da fonte e na avaliação da verdade |
identity |
Frameworks de personalidade e padrões comportamentais focados em traços de caráter, valores e estilos de interação consistentes |
long-context |
Textos extensos e narrativas complexas focados em manter a coerência e a relevância em interações de longa duração |
math |
Conteúdo matemático, incluindo livros didáticos, problemas, soluções e discussões matemáticas. |
rai |
Casos e cenários enfatizando os princípios éticos da IA, considerações de segurança e implantação responsável de tecnologia |
instruction-following |
Exemplos de execução precisa de tarefas com base em diversos níveis de prompts e diretrizes dos usuários |
stem |
Conteúdo técnico que abrange ciência, tecnologia, engenharia e matemática, incluindo resolução de problemas e conceitos teóricos |
planning |
Sequências que demonstram pensamento estratégico, divisão de tarefas passo a passo e alocação eficiente de recursos |
reasoning-chat |
Cenários de diálogo analítico focados em discussões lógicas e fluxos de conversação estruturados |
reasoning-code |
Desafios de programação e problemas algorítmicos focados no desenvolvimento sistemático de soluções |
reasoning-factuality |
Cenários de avaliação de informações focados em processos críticos de avaliação e verificação |
reasoning-instruction-following |
Análise complexa de tarefas focada na interpretação sistemática e na execução metódica |
reasoning-math |
Cenários matemáticos de resolução de problemas focados em progressão lógica e estratégias de solução |
reasoning-planning |
Cenários de tomada de decisão estratégica focados na abordagem sistemática para o alcance de metas |
reasoning-rag |
Cenários de recuperação e síntese de informações focados na compreensão contextual e na aplicação relevante |
reasoning-rai |
Cenários de tomada de decisão ética focados na avaliação sistemática da segurança e imparcialidade da IA |
reasoning-stem |
Cenários científicos de resolução de problemas focados na análise metódica e no desenvolvimento de soluções |
rag |
Exemplos de combinação eficaz do conhecimento externo recuperado com as respostas geradas para fornecer informações contextuais precisas |
translation |
Pares de conteúdo em vários idiomas que mostram uma tradução precisa, preservando o contexto, o tom e as nuances culturais |
Guia de parâmetros
-
dataset_catalog: por enquanto, o único valor é cpt_text_lite, até habilitarmos o treinamento multimodal.
-
nova_data: porcentagem das categorias individuais de dados do Nova quando combinadas. Elas devem totalizar 1,0.
-
customer_data: a porcentagem dos dados do cliente combinados com os dados do Nova.
O número total de tokens usados no treinamento pode ser calculado em max_length * global_batch_size * max_steps
Limitações
O CPT atual é compatível apenas com dados de texto e não é compatível com nenhum conjunto de dados multimodais do cliente.