Pré-treinamento contínuo (CPT)
O pré-treinamento contínuo (CPT) é uma técnica de treinamento que estende a fase de pré-treinamento de um modelo de base, expondo-o a texto adicional sem rótulo de domínios ou corpora específicos. Ao contrário do ajuste fino supervisionado, que requer pares de entrada-saída rotulados, o CPT treina em documentos brutos para ajudar o modelo a adquirir um conhecimento mais profundo de novos domínios, aprender a terminologia e os padrões de escrita específicos do domínio e se adaptar a determinados tipos de conteúdo ou áreas temáticas.
Essa abordagem é particularmente valiosa quando você tem grandes volumes (dezenas de bilhões de tokens) de dados de texto específicos do domínio, como documentos legais, literatura médica, documentação técnica ou conteúdo comercial proprietário, e deseja que o modelo desenvolva fluência nativa nesse domínio. Geralmente, após a etapa do CPT, o modelo precisa passar por etapas adicionais de ajuste de instruções para permitir que o modelo use o conhecimento recém-adquirido e conclua tarefas úteis.
Modelos compatíveis
O CPT está disponível para os seguintes modelos do Amazon Nova:
-
Nova 1.0 (Micro, Lite, Pro)
-
Nova 2.0 (Lite)
Quando usar o Nova 1.0 versus o Nova 2.0
A família de modelos do Amazon Nova oferece vários pontos operacionais de relação preço/performance para otimizar entre precisão, velocidade e custo.
Escolha o Nova 2.0 quando você precisar do seguinte:
-
Recursos avançados de raciocínio para tarefas analíticas complexas
-
Desempenho superior em codificação, matemática e resolução de problemas científicos
-
Suporte a janelas de contexto mais longas
-
Melhor desempenho multilíngue
nota
O modelo maior nem sempre é melhor. Considere a relação custo-performance e seus requisitos comerciais específicos ao escolher entre os modelos Nova 1.0 e Nova 2.0.