View a markdown version of this page

Continua e Pre-Training Mid-Training - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Continua e Pre-Training Mid-Training

Nota

La documentazione dettagliata viene fornita una volta sottoscritta

Nova Forge CPT offre funzionalità avanzate oltre al CPT standard, incluso l'accesso a checkpoint intermedi e la miscelazione dei dati con il corpus di pre-formazione di Nova. Queste funzionalità consentono un adattamento più efficiente del dominio e una migliore conservazione delle funzionalità generali del modello.

Cosa sono i checkpoint intermedi e perché sono necessari?

I checkpoint intermedi sono istantanee del modello Amazon Nova salvate in diverse fasi del pre-addestramento, prima che il modello raggiunga lo stato finale pronto per la produzione. Durante lo sviluppo del modello, Amazon Nova viene sottoposto a diverse fasi di formazione: pre-formazione iniziale con tasso di apprendimento costante, riduzione del tasso di apprendimento, formazione con estensione del contesto e infine formazione sull'allineamento e sulla sicurezza che segue le istruzioni. Per il CPT, i checkpoint intermedi sono spesso preferibili al checkpoint Prod finale perché sono più plastici e ricettivi all'adattamento del dominio. Il checkpoint Prod è stato sottoposto a un'ampia formazione sull'allineamento e sulla sicurezza, che ottimizza il modello per l'uso conversazionale generale ma può renderlo resistente all'apprendimento di nuovi schemi specifici del dominio durante il CPT. Al contrario, i checkpoint contenenti solo testo parzialmente e completamente preaddestrato mantengono le caratteristiche di pre-addestramento del modello. Non sono stati fortemente orientati verso comportamenti specifici, il che li rende punti di partenza più efficienti per l'adattamento al dominio. Quando si esegue un CPT su larga scala (token >10B), partire da checkpoint intermedi in genere si ottiene una convergenza più rapida, una migliore stabilità della formazione e un'acquisizione più efficace delle conoscenze di dominio. Tuttavia, per il CPT su piccola scala (token <10B), o quando è necessario preservare le funzionalità di seguire le istruzioni, il checkpoint Prod può essere più appropriato in quanto consente l'adattamento del dominio mantenendo le capacità di conversazione del modello.

Per il CPT sono necessari più checkpoint intermedi perché offrono diversi livelli di plasticità del modello che influiscono sull'efficienza con cui il modello può assorbire nuove conoscenze di dominio. Il checkpoint Prod finale è stato sottoposto a un'ampia formazione sull'allineamento e sulla sicurezza, che lo ottimizza per l'uso conversazionale generale ma lo rende resistente all'apprendimento di nuovi schemi specifici del dominio. In altre parole, è stato rafforzato dopo l'allenamento. Al contrario, i checkpoint precedenti mantengono le caratteristiche di pre-allenamento del modello e non sono stati fortemente orientati verso comportamenti specifici, il che li rende più plastici e ricettivi all'adattamento del dominio.

Per ottenere la migliore efficienza della formazione, sono disponibili più punti di controllo intermedi.

Quali posti di blocco sono disponibili?

Nova 2.0

Esistono tre checkpoint Amazon Nova Lite 2.0.

  • PRE-TRAINED - [nova-lite-2/pretraining-text-RD]: Questo è il checkpoint dopo il ritmo di apprendimento costante e le fasi di accelerazione della formazione preliminare di Amazon Nova, in cui il modello viene addestrato su trilioni di token.

  • MID-TRAINED - [nova-lite-2/pretraining-text-CE]: Questo checkpoint consente di introdurre volumi intermedi di dati non strutturati con un tasso di apprendimento più conservativo rispetto alla formazione preliminare, assorbendo le conoscenze specifiche del dominio ed evitando l'oblio catastrofico.

  • POST-TRAINED - [nova-lite-2/prod]: Questo è il checkpoint finale completamente allineato del modello che ha superato tutte le fasi pertinenti e successive alla formazione.

La tabella seguente illustra le diverse condizioni prima e durante l'allenamento.

Tipo di dati

Esegui

Con Checkpoint

Large-scale dati di dominio non strutturati non strutturati (documenti, registri, articoli, codice, ecc.)

Continua Pre-Training

Pre-Trained

Large-scale dati di dominio non strutturati non strutturati (documenti, registri, articoli, codice, ecc.)

Mid-Training

Pre-Trained

Volumi più piccoli di dati grezzi non strutturati. Tracce di ragionamento strutturato/dati CoT

Mid-Training

Mid-Trained

Dimostrazioni strutturate (coppie input-output di alta qualità, istruzioni dettagliate sulle attività, dialoghi a più turni)

Completo Fine-Tuning

Mid-Trained

Dimostrazioni strutturate (coppie input-output di alta qualità, istruzioni dettagliate sulle attività, dialoghi a più turni)

Parametro Efficiente Fine-Tuning

Post-Trained

Quale checkpoint usare?

I checkpoint con solo testo parzialmente preaddestrato e solo testo completamente preaddestrato in genere convergono più rapidamente e richiedono meno passaggi di formazione per l'adattamento del dominio. Tuttavia, non sono in grado di adattare le istruzioni e dovrebbero sottoporsi a fasi successive all'addestramento per poter svolgere attività utili e seguire le istruzioni. Il punto di controllo GA potrebbe richiedere più passaggi per adattarsi, ma offre un punto di partenza più sicuro per esperimenti su piccola scala e manterrà alcune delle sue capacità post-addestramento anche dopo l'addestramento CPT.

In generale, con set di dati di addestramento di grandi dimensioni (più di 10 miliardi di token), iniziate da punti di controllo solo testuali parzialmente preaddestrati o solo testo completamente preaddestrato per un addestramento più efficiente e stabile, poiché la base di conoscenze del modello verrà modificata in modo sostanziale. Con set di dati di piccole dimensioni (<10 miliardi di token), utilizzate il checkpoint GA per preservare le capacità di seguire le istruzioni adattandovi al dominio.

Come utilizzare il mixaggio dei dati per Nova 2.0?

Quando si esegue il CPT con i dati di un nuovo dominio, è estremamente utile combinare i nuovi dati con alcuni dei dati utilizzati in precedenza nella fase di pre-addestramento del modello. La combinazione di dati vecchi con dati di nuovo dominio risolve due problemi:

  • Dimenticare il controllo: previene l'oblio catastrofico preservando le competenze e le conoscenze esistenti del modello. Senza la miscelazione dei dati, l'addestramento esclusivamente su dati di dominio ristretto fa sì che il modello sovrascriva le funzionalità generali. Ad esempio, un modello addestrato solo su documenti legali potrebbe perdere la capacità di codificare o fare calcoli matematici. La combinazione dei set di dati del dominio generale preserva queste competenze generali durante l'acquisizione del nuovo dominio.

  • Stabilità di ottimizzazione: mantiene la stabilità dell'allenamento ancorando le rappresentazioni interne del modello. Durante il CPT, le funzionalità apprese dal modello vengono modificate e la miscelazione dei dati fornisce gradienti provenienti da diverse fonti che guidano questo adattamento senza intoppi. Senza di essa, l'addestramento su distribuzioni ristrette può causare instabilità del gradiente, dove le rappresentazioni del modello cambiano troppo drasticamente, con conseguenti divergenze nell'addestramento, picchi di perdita o collasso delle capacità esistenti. Questo è il compromesso tra stabilità e plasticità: il modello dovrebbe essere sufficientemente plastico per apprendere nuove conoscenze di settore, ma abbastanza stabile da non rompere ciò che già conosce.

Funzionalità di mixaggio dei dati Nova CPT

L'accesso ai dati e ai checkpoint di pre-formazione di Amazon Nova è una delle offerte principali della personalizzazione CPT di Amazon Nova. La personalizzazione CPT di Amazon Nova consente di combinare facilmente i dati di dominio con il corpus di pre-formazione di Amazon Nova. Inoltre, è possibile modificare il rapporto di campionamento delle specifiche categorie di dati di Amazon Nova (ad es. codice, matematica, ragionamento, ecc.) e controllarne le proporzioni per integrare i dati del dominio. Ciò consente di rafforzare le funzionalità in linea con il caso d'uso adattando al contempo il modello al dominio specifico.

Individuazione del rapporto di miscelazione ottimale

Il rapporto ottimale tra dati di Amazon Nova e dati di dominio dipende dal dominio, dalla complessità, dalle dimensioni, dalla qualità del set di dati e dall'importanza di mantenere le funzionalità generali. Questo rapporto deve essere scoperto attraverso la sperimentazione. Di seguito è riportato un framework sperimentale per decidere la quantità di dati Amazon Nova da combinare.

Seleziona un sottoinsieme rappresentativo di dati di dominio (ad esempio token 5B) e mantieni questo valore costante in tutte le esecuzioni sperimentali.

Esegui esperimenti CPT su piccola scala variando solo la quantità di dati Amazon Nova mescolati in:

  • Nessuna combinazione: dominio 100% → solo dominio 5B (totale 5B)

  • Miscelazione della luce: 90% dominio → dominio 5B + ~ 0,56 B Amazon Nova (totale ~ 5,56 B)

  • Miscelazione media: 70% dominio → dominio 5B + ~ 2,14 B Amazon Nova (totale ~ 7,14 B)

  • Mixaggio intensivo: 50% dominio → dominio 5B+5B Amazon Nova (totale 10 B)

Valuta ogni checkpoint nei benchmark di dominio in e in generale. Valuta anche il checkpoint di partenza (checkpoint Amazon Nova prima di qualsiasi formazione).

  • Le prestazioni del dominio del cliente rimangono all'incirca costanti durante le esecuzioni? Di solito dovrebbe, poiché ogni esecuzione ha registrato lo stesso numero di token di dominio. Se le prestazioni del dominio migliorano con una maggiore miscelazione, i dati di Amazon Nova forniscono un'utile regolarizzazione.

  • I punteggi generali dei benchmark migliorano all'aumentare del mixaggio?

    • Il comportamento previsto è che le funzionalità generali dovrebbero migliorare in modo monotono man mano che vengono aggiunti più dati di Amazon Nova.

    • Misura diversi benchmark generali: MMLU (conoscenza generale), (codifica), GSM8K HumanEval (matematica) o benchmark specifici di interesse.

  • Seleziona il rapporto di miscelazione che mantiene le prestazioni del dominio offrendo al contempo funzionalità generali accettabili per i casi d'uso. Tieni conto del costo aggiuntivo della formazione con una maggiore combinazione di dati.

Una volta identificato il rapporto di miscelazione ottimale, esegui un CPT su vasta scala utilizzando il set di dati completo del dominio con il rapporto di miscelazione selezionato.

Analisi delle categorie di miscelazione dei dati

Di seguito analizziamo ogni categoria disponibile in Data Mixing, per consentirvi di prendere la decisione migliore su quali categorie di dati abbia più senso essere rappresentate nella combinazione complessiva di dati.

Come abilitare il data mixing

Aggiungi la data_mixing sezione alla tua ricetta con la distribuzione percentuale appropriata tra le categorie di set di dati. La somma nova_data delle percentuali deve essere 100.

Configurazione Nova 2.0 con miscelazione dei dati

# Note: # This recipe can run on p5.48xlarge # Run config display_name: "Nova Lite Pretrain on P5 GPU" versions: ["2.0"] instance_types: ["ml.p5.48xlarge"] run: name: "my-cpt-run" # A descriptive name for your training job model_type: "amazon.nova-2-lite-v1:0:256k" # Model variant specification, do not change model_name_or_path: "nova-lite-2/prod" # Base model path, do not change replicas: 8 # Number of compute instances for training, allowed values are 4, 8, 16, 32 data_s3_path: "" # Customer data paths validation_data_s3_path: "" # Customer validation data paths output_s3_path: "" # Output artifact path, SageMaker HyperPod job-specific configuration - not compatible with standard SageMaker Training jobs ## Training specific configs training_config: task_type: cpt max_length: 8192 # Maximum context window size (tokens) global_batch_size: 64 # Global batch size, allowed values are 32, 64, 128, 256. trainer: max_steps: 10 # The number of training steps to run total val_check_interval: 10 # The number of steps between running validation limit_val_batches: 2 # Batches of the validation set to use each trigger model: hidden_dropout: 0.0 # Dropout for hidden states, must be between 0.0 and 1.0 attention_dropout: 0.0 # Dropout for attention weights, must be between 0.0 and 1.0 optim: optimizer: adam lr: 1e-5 # Learning rate name: distributed_fused_adam # Optimizer algorithm, do not change adam_w_mode: true # Enable AdamW mode eps: 1e-06 # Epsilon for numerical stability weight_decay: 0.0 # L2 regularization strength, must be between 0.0 and 1.0 adam_beta1: 0.9 # Beta1 for Adam optimizer adam_beta2: 0.95 # Beta2 for Adam optimizer sched: warmup_steps: 10 # Learning rate warmup steps constant_steps: 0 # Steps at constant learning rate min_lr: 1e-6 # Minimum learning rate, must be lower than lr data_mixing: dataset_catalog: cpt_text_lite sources: nova_data: # percent inputs for Nova data must sum to 100%; use 0% if you want to exclude a data grouping agents: 20 business-and-finance: 4 scientific: 10 code: 5 factual-and-news: 5 longform-text: 6 health-and-medicine: 1 humanities-and-education: 1 legal: 1 math: 9 additional-languages: 15 social-and-personal-interest: 11 entertainment: 0.5 reasoning: 10 other: 0.5 tables: 1 customer_data: # percent input of customer data. 100 = use only customer data, 0 = use only the nova_data mix above percent: 25

Cosa significano queste categorie

Nota: Nova 2.0 include categorie aggiuntive specifiche per il ragionamento (ad esempio, reasoning-codereasoning-math,reasoning-instruction-following) che non sono disponibili in Nova 1.0.

Riepilogo delle categorie e delle etichette informative:

Nome della categoria Dettagli delle informazioni
agents Dati di formazione incentrati sul processo decisionale autonomo, sul completamento delle attività e sul comportamento orientato agli obiettivi nei sistemi di intelligenza artificiale
baseline Dati linguistici fondamentali incentrati sulla comprensione generale, sulla comunicazione di base e sulle capacità linguistiche di base
chat Scambi conversazionali che dimostrano un flusso di dialogo naturale, il mantenimento del contesto e interazioni sociali appropriate
code Codice sorgente di programmazione, documentazione e discussioni tecniche da vari linguaggi e piattaforme di programmazione.
factuality Materiali di riferimento e informazioni verificate incentrati sull'accuratezza, la convalida della fonte e la valutazione della verità
identity Quadri di personalità e modelli comportamentali incentrati su tratti caratteriali, valori e stili di interazione coerenti
long-context Testi estesi e narrazioni complesse incentrati sul mantenimento della coerenza e della pertinenza durante lunghi scambi
math Contenuti matematici tra cui libri di testo, problemi, soluzioni e discussioni matematiche.
rai Casi e scenari che enfatizzano i principi etici dell'IA, le considerazioni sulla sicurezza e l'implementazione responsabile della tecnologia
instruction-following Esempi di esecuzione precisa delle attività in base a diversi livelli di istruzioni e direttive dell'utente
stem Contenuti tecnici riguardanti scienza, tecnologia, ingegneria e matematica, compresi concetti teorici e di risoluzione di problemi
planning Sequenze che dimostrano il pensiero strategico, la suddivisione dettagliata delle attività e l'allocazione efficiente delle risorse
reasoning-chat Scenari di dialogo analitici incentrati su discussioni logiche e flussi di conversazione strutturati
reasoning-code Sfide di programmazione e problemi algoritmici incentrati sullo sviluppo sistematico di soluzioni
reasoning-factuality Scenari di valutazione delle informazioni incentrati sui processi critici di valutazione e verifica
reasoning-instruction-following Analisi complessa delle attività incentrata sull'interpretazione sistematica e sull'esecuzione metodica
reasoning-math Scenari matematici di risoluzione di problemi incentrati sulla progressione logica e sulle strategie di soluzione
reasoning-planning Scenari decisionali strategici incentrati su un approccio sistematico al raggiungimento degli obiettivi
reasoning-rag Scenari di recupero e sintesi delle informazioni incentrati sulla comprensione contestuale e sull'applicazione pertinente
reasoning-rai Scenari decisionali etici incentrati sulla valutazione sistematica della sicurezza e dell'equità dell'IA
reasoning-stem Scenari scientifici di risoluzione dei problemi incentrati sull'analisi metodica e sullo sviluppo di soluzioni
rag Esempi di combinazione efficace delle conoscenze esterne recuperate con le risposte generate per fornire informazioni contestuali accurate
translation Multi-language coppie di contenuti che mostrano una traduzione accurata preservando il contesto, il tono e le sfumature culturali

Guida ai parametri

  • dataset_catalog: da utilizzare cpt_text_lite per leggere dati curati da FSx (impostazione predefinita) o cpt_text_lite_s3 per trasmettere dati curati da Amazon S3 e ridurre i costi di storage. Per ulteriori informazioni, consulta Riduci i costi di storage trasmettendo in streaming i dati di formazione da Amazon S3.

  • nova_data: percentuale delle singole categorie di dati Nova quando vengono combinati. Dovrebbero sommarsi fino a 1,0.

  • customer_data: la percentuale di dati del cliente mescolati ai dati Nova.

Il numero totale di token utilizzati nella formazione può essere calcolato da* * max_length global_batch_size max_steps

Riduci i costi di storage trasmettendo in streaming i dati di formazione da Amazon S3

Quando esegui lavori di pre-formazione continua (CPT), Nova Forge legge per impostazione predefinita i dati di formazione curati da Amazon da un file system FSx for Lustre. L'intero corpus curato è ampio e mantenerlo residente su FSx aumenta i costi di storage per la formazione.

Puoi optare per un layout di dati alternativo che trasmette i dati di formazione curati da Amazon S3 durante la formazione. Il file system FSx viene ancora utilizzato per i set di dati, i checkpoint e gli output dei lavori, ma i dati di formazione curati vengono letti direttamente da S3 su richiesta. Ciò rimuove il set di dati curato dall'ingombro dello storage FSx e può ridurre significativamente il costo di storage dei job CPT, in particolare per i corsi di formazione di lunga durata.

I dati curati, i rapporti di combinazione e la composizione del set di dati sono identici al catalogo predefinito. Cambia solo la posizione di origine.

Requisiti

  • Il tuo RIG di allenamento deve essere creato a partire dal 1° marzo 2026. I RIG creati prima di tale data non includono i componenti necessari per lo streaming dei dati di allenamento curati da S3. Se il tuo RIG è più vecchio, ricrealo per utilizzare questa funzionalità.

  • La funzionalità si applica attualmente al catalogo di testo utilizzato con Amazon Nova Lite. Gli altri cataloghi non sono idonei.

Abilita i dati S3-backed di allenamento nella tua ricetta

Nella data_mixing sezione della tua ricetta CPT, passa dataset_catalog acpt_text_lite_s3. Tutto il resto della tua ricetta rimane lo stesso.

run: name: my-cpt-run model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: nova-lite-2/prod replicas: 4 data_s3_path: s3://my-bucket/my-dataset output_s3_path: s3://my-bucket/my-output training_config: task_type: cpt max_length: 8192 global_batch_size: 32 save_steps: 1000 trainer: max_steps: 5000 optim: lr: 1.0e-05 data_mixing: dataset_catalog: cpt_text_lite_s3 # stream curated data from S3 sources: customer_data: percent: 25

Invia il lavoro utilizzando lo stesso flusso di lavoro di qualsiasi altra ricetta CPT. Nova Forge gestisce lo streaming di dati S3 durante la configurazione dell'allenamento senza alcuna configurazione aggiuntiva da parte dell'utente.

Cosa aspettarsi

  • I primi minuti di ogni lavoro includono una breve fase di preparazione dei dati mentre Nova Forge risolve il layout dei dati per la vostra regione. Questa fase è una tantum per lavoro.

  • La produttività delle fasi di formazione è paragonabile a quella del catalogo predefinito FSx-backed . Il caricamento dei dati avviene parallelamente all'addestramento, quindi lo streaming S3 non diventa un ostacolo durante l'addestramento allo stato stazionario.

  • I tuoi dati di addestramento (il set di dati fornitodata_s3_path) continuano a essere archiviati su FSx e non sono influenzati da questa impostazione.

Limitazioni

  • La funzionalità è disponibile solo per il catalogo di testo su Amazon Nova Lite. L'utilizzo cpt_text_lite_s3 con altri modelli o tipi di attività genera un errore di catalogo non valido al momento dell'invio del lavoro.

  • La modifica a dataset_catalog metà esecuzione non è supportata. Impostalo al momento dell'invio del lavoro.

Tornando al catalogo predefinito

Se desideri ripristinare il FSx-resident catalogo predefinito in qualsiasi momento, impostalo dataset_catalog: cpt_text_lite nella tua ricetta. Non sono necessarie altre modifiche.

Limitazioni

L'attuale CPT supporta solo dati di testo e non supporta alcun set di dati multimodale del cliente.