

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Suite Pre-Training et Mid-Training
<a name="nova-forge-cpt"></a>

**Note**  
Une documentation détaillée est fournie une fois que vous êtes abonné

Nova Forge CPT offre des fonctionnalités avancées allant au-delà du CPT standard, notamment l'accès à des points de contrôle intermédiaires et le mixage de données avec le corpus de pré-entraînement de Nova. Ces fonctionnalités permettent une adaptation plus efficace des domaines et une meilleure préservation des fonctionnalités générales du modèle.

## Quels sont les points de contrôle intermédiaires et pourquoi sont-ils nécessaires ?
<a name="nova-forge-cpt-checkpoints"></a>

Les points de contrôle intermédiaires sont des instantanés du modèle Amazon Nova enregistrés à différentes étapes de la pré-formation, avant que le modèle n'atteigne son état final prêt pour la production. Au cours du développement du modèle, Amazon Nova est soumis à plusieurs phases de formation : pré-formation initiale avec un taux d'apprentissage constant, réduction du taux d'apprentissage, formation à l'extension du contexte et enfin formation à l'alignement et à la sécurité suivant les instructions. Pour le CPT, les points de contrôle intermédiaires sont souvent préférables au point de contrôle final Prod car ils sont plus plastiques et réceptifs à l'adaptation au domaine. Le point de contrôle Prod a fait l'objet d'une formation approfondie sur l'alignement et la sécurité, qui optimise le modèle pour une utilisation conversationnelle générale, mais peut le rendre résistant à l'apprentissage de nouveaux modèles spécifiques au domaine pendant le CPT. En revanche, les points de contrôle contenant uniquement du texte partiellement ou entièrement préentraîné conservent les caractéristiques du modèle avant l'entraînement. Ils n'ont pas été fortement orientés vers des comportements spécifiques, ce qui en fait des points de départ plus efficaces pour l'adaptation au domaine. Lorsque vous effectuez un CPT à grande échelle (>10 milliards de jetons), le fait de partir de points de contrôle intermédiaires se traduit généralement par une convergence plus rapide, une meilleure stabilité de la formation et une acquisition plus efficace des connaissances du domaine. Toutefois, pour les CPT à petite échelle (<10 milliards de jetons), ou lorsque les capacités de suivi des instructions doivent être préservées, le point de contrôle Prod peut être plus approprié car il permet l'adaptation du domaine tout en préservant les capacités conversationnelles du modèle.

Plusieurs points de contrôle intermédiaires sont nécessaires pour le CPT car ils offrent différents niveaux de plasticité du modèle qui affectent l'efficacité avec laquelle le modèle peut absorber les nouvelles connaissances du domaine. Le point de contrôle final du Prod a fait l'objet d'une formation approfondie sur l'alignement et la sécurité, qui l'optimise pour une utilisation conversationnelle générale, mais le rend résistant à l'apprentissage de nouveaux modèles spécifiques au domaine. En d'autres termes, il a été renforcé après l'entraînement. En revanche, les points de contrôle antérieurs conservent les caractéristiques du modèle avant l'entraînement et n'ont pas été fortement orientés vers des comportements spécifiques, ce qui les rend plus souples et plus réceptifs à l'adaptation au domaine.

Pour optimiser l'efficacité de l'entraînement, plusieurs points de contrôle intermédiaires sont fournis.

## Quels sont les points de contrôle disponibles ?
<a name="nova-forge-cpt-available"></a>

**Nova 2.0**  
Il existe trois points de contrôle Amazon Nova Lite 2.0.
+ PRE-TRAINED - [`nova-lite-2/pretraining-text-RD`] : C'est le point de contrôle après le taux d'apprentissage constant et les étapes de réduction de la pré-formation d'Amazon Nova, au cours desquelles le modèle est entraîné avec des milliards de jetons.
+ MID-TRAINED - [`nova-lite-2/pretraining-text-CE`] : Ce point de contrôle permet d'introduire des volumes intermédiaires de données non structurées avec un taux d'apprentissage plus modéré qu'avant la formation, absorbant ainsi les connaissances spécifiques à un domaine tout en évitant un oubli catastrophique.
+ POST-TRAINED - [`nova-lite-2/prod`] : Il s'agit du point de contrôle final entièrement aligné du modèle qui a suivi toutes les étapes pertinentes et postérieures à la formation.

Le tableau suivant décrit les différentes conditions avant et pendant l'entraînement.


| Type de données | Exécuter | Avec Checkpoint | 
| --- |--- |--- |
| Large-scale données de domaine brutes non structurées (documents, journaux, articles, code, etc.) | Continué Pre-Training | Pre-Trained | 
| Large-scale données de domaine brutes non structurées (documents, journaux, articles, code, etc.) | Mid-Training | Pre-Trained | 
| Petits volumes de données brutes non structurées. Traces de raisonnement structurées/données CoT | Mid-Training | Mid-Trained | 
| Démonstrations structurées (paires entrées-sorties de haute qualité, instructions de tâches sélectionnées, dialogues à plusieurs tours) | Complet Fine-Tuning | Mid-Trained | 
| Démonstrations structurées (paires entrées-sorties de haute qualité, instructions de tâches sélectionnées, dialogues à plusieurs tours) | Paramètre Efficient Fine-Tuning | Post-Trained | 

## Quel point de contrôle utiliser ?
<a name="nova-forge-cpt-which"></a>

Les points de contrôle partiellement pré-entraînés uniquement en texte et entièrement pré-entraînés uniquement en texte convergent généralement plus rapidement et nécessitent moins d'étapes de formation pour l'adaptation au domaine. Cependant, ils n'ont pas de réglage des instructions et devraient suivre des étapes après la formation pour être en mesure d'effectuer des tâches utiles et de suivre les instructions. Le point de contrôle GA peut nécessiter plus d'étapes pour s'adapter, mais constitue un point de départ plus sûr pour les expériences à petite échelle et conservera certaines de ses capacités après la formation, même après la formation du CPT.

En général, avec de grands ensembles de données d'entraînement (>10 milliards de jetons), commencez par des points de contrôle partiellement préentraînés uniquement en texte ou entièrement préentraînés uniquement en texte pour une formation plus efficace et plus stable, car la base de connaissances du modèle sera considérablement modifiée. Avec de petits ensembles de données (<10 Go de jetons), utilisez le point de contrôle GA pour préserver les capacités de suivi des instructions tout en vous adaptant au domaine.

## Comment utiliser le mixage de données pour Nova 2.0 ?
<a name="nova-forge-cpt-mixing"></a>

Lors de l'exécution du CPT avec de nouvelles données de domaine, il est très avantageux de mélanger les nouvelles données avec certaines des données utilisées précédemment lors de la phase de pré-apprentissage du modèle. Le mélange d'anciennes données avec de nouvelles données de domaine permet de résoudre deux problèmes :
+ Contrôle de l'oubli : prévient l'oubli catastrophique en préservant les compétences et les connaissances existantes sur le modèle. Sans mélange de données, l'entraînement exclusivement sur des données de domaine restreint entraîne le remplacement des capacités générales du modèle. Par exemple, un modèle formé uniquement sur des documents juridiques risque de perdre sa capacité à coder ou à effectuer des calculs. Le mélange des ensembles de données du domaine général préserve ces compétences générales lors de l'acquisition du nouveau domaine.
+ Stabilité d'optimisation : Maintient la stabilité de l'entraînement en ancrant les représentations internes du modèle. Au cours du CPT, les caractéristiques apprises du modèle sont modifiées et le mélange de données fournit des dégradés provenant de diverses sources qui guident cette adaptation en douceur. Sans cela, l'entraînement sur des distributions étroites peut provoquer une instabilité du gradient, les représentations du modèle étant modifiées de manière trop drastique, ce qui entraîne une divergence d'apprentissage, des pics de pertes ou un effondrement des capacités existantes. Il s'agit du compromis entre stabilité et plasticité : le modèle doit être suffisamment souple pour acquérir de nouvelles connaissances dans le domaine, mais suffisamment stable pour ne pas altérer ce qu'il sait déjà.

**Capacités de mixage de données Nova CPT**  
L'accès aux données de pré-formation et aux points de contrôle d'Amazon Nova est l'une des principales offres de personnalisation d'Amazon Nova CPT. La personnalisation d'Amazon Nova CPT permet de mélanger facilement les données de domaine avec le corpus de pré-formation d'Amazon Nova. En outre, le taux d'échantillonnage des catégories de données spécifiques d'Amazon Nova (par exemple, code, mathématiques, raisonnement, etc.) peut être modifié et leurs proportions contrôlées pour compléter les données du domaine. Cela permet de renforcer les fonctionnalités qui correspondent au cas d'utilisation tout en adaptant le modèle au domaine spécifique.

**Trouver le rapport de mélange optimal**  
Le ratio optimal entre les données Amazon Nova et les données de domaine dépend du domaine, de la complexité, de la taille, de la qualité du jeu de données et de l'importance de maintenir les fonctionnalités générales. Ce ratio doit être découvert par l'expérimentation. Voici un cadre d'expérimentation permettant de décider de la quantité de données Amazon Nova à mélanger.

Sélectionnez un sous-ensemble représentatif de données de domaine (par exemple, 5 milliards de jetons) et maintenez-le constant pendant tous les essais expérimentaux.

Exécutez des expériences CPT à petite échelle en faisant varier uniquement la quantité de données Amazon Nova mélangées dans :
+ Pas de mixage : 100 % domaine → domaine 5 B uniquement (total 5 B)
+ Mélange de lumière : domaine 90 % → domaine 5B \+ \~0,56 B Amazon Nova (total \~5,56 B)
+ Mixage moyen : 70 % de domaine → domaine 5 B \+ \~2,14 B Amazon Nova (total \~7,14 B au total)
+ Mixage intensif : 50 % de domaine → domaine 5 B \+ 5 Go Amazon Nova (total 10 B)

Évaluez chaque point de contrôle sur les benchmarks internes et généraux du domaine. Évaluez également le point de contrôle de départ (point de contrôle Amazon Nova avant toute formation).
+ Les performances du domaine client restent-elles à peu près constantes d'un cycle à l'autre ? C'est généralement le cas, car chaque exécution a généré le même nombre de jetons de domaine. Si les performances du domaine s'améliorent grâce à un plus grand mixage, les données Amazon Nova fournissent une régularisation utile.
+ Les scores de référence généraux s'améliorent-ils à mesure que le mixage augmente ?
  + Le comportement attendu est que les fonctionnalités générales devraient s'améliorer de manière monotone à mesure que de nouvelles données Amazon Nova sont ajoutées.
  + Mesurez plusieurs repères généraux : MMLU (connaissances générales), HumanEval (codage), GSM8K (mathématiques) ou repères spécifiques qui vous intéressent.
+ Sélectionnez le ratio de mixage qui permet de maintenir les performances du domaine tout en offrant des fonctionnalités générales acceptables pour les cas d'utilisation. Tenez compte du coût supplémentaire de la formation en mélangeant davantage les données.

Une fois que le rapport de mélange optimal a été identifié, exécutez le CPT à grande échelle en utilisant l'ensemble de données de domaine complet avec le rapport de mélange sélectionné.

## Disséquer les catégories de mixage de données
<a name="nova-forge-cpt-data-mixing-categories"></a>

Nous analysons ci-dessous chaque catégorie disponible dans Data Mixing, afin que vous puissiez décider au mieux des catégories de données qu'il est le plus judicieux de représenter dans votre mélange de données global.

### Comment activer le mixage des données
<a name="nova-forge-cpt-enable-mixing"></a>

Ajoutez la `data_mixing` section à votre recette avec la distribution en pourcentage appropriée entre les catégories de jeux de données. La somme des `nova_data` pourcentages doit être égale à 100.

#### Configuration Nova 2.0 avec mixage de données
<a name="nova-forge-cpt-nova2-config"></a>

```
# Note:
# This recipe can run on p5.48xlarge

# Run config
display_name: "Nova Lite Pretrain on P5 GPU"
versions: ["2.0"]
instance_types: ["ml.p5.48xlarge"]

run:
  name: "my-cpt-run"     # A descriptive name for your training job
  model_type: "amazon.nova-2-lite-v1:0:256k" # Model variant specification, do not change
  model_name_or_path: "nova-lite-2/prod" # Base model path, do not change
  replicas: 8       # Number of compute instances for training, allowed values are 4, 8, 16, 32
  data_s3_path: ""       # Customer data paths
  validation_data_s3_path: ""        # Customer validation data paths
  output_s3_path: ""   # Output artifact path, SageMaker HyperPod job-specific configuration - not compatible with standard SageMaker Training jobs

## Training specific configs
training_config:
  task_type: cpt
  max_length: 8192              # Maximum context window size (tokens)
  global_batch_size: 64        # Global batch size, allowed values are 32, 64, 128, 256.

  trainer:
    max_steps: 10               # The number of training steps to run total
    val_check_interval: 10      # The number of steps between running validation
    limit_val_batches: 2        # Batches of the validation set to use each trigger

  model:
    hidden_dropout: 0.0           # Dropout for hidden states, must be between 0.0 and 1.0
    attention_dropout: 0.0        # Dropout for attention weights, must be between 0.0 and 1.0

  optim:
    optimizer: adam
    lr: 1e-5                      # Learning rate
    name: distributed_fused_adam  # Optimizer algorithm, do not change
    adam_w_mode: true             # Enable AdamW mode
    eps: 1e-06                    # Epsilon for numerical stability
    weight_decay: 0.0             # L2 regularization strength, must be between 0.0 and 1.0
    adam_beta1: 0.9               # Beta1 for Adam optimizer
    adam_beta2: 0.95              # Beta2 for Adam optimizer
    sched:
      warmup_steps: 10            # Learning rate warmup steps
      constant_steps: 0           # Steps at constant learning rate
      min_lr: 1e-6                # Minimum learning rate, must be lower than lr

data_mixing:
  dataset_catalog: cpt_text_lite
  sources:
    nova_data:   # percent inputs for Nova data must sum to 100%; use 0% if you want to exclude a data grouping
      agents: 20
      business-and-finance: 4
      scientific: 10
      code: 5
      factual-and-news: 5
      longform-text: 6
      health-and-medicine: 1
      humanities-and-education: 1
      legal: 1
      math: 9
      additional-languages: 15
      social-and-personal-interest: 11
      entertainment: 0.5
      reasoning: 10
      other: 0.5
      tables: 1
    customer_data: # percent input of customer data. 100 = use only customer data, 0 = use only the nova_data mix above
      percent: 25
```

**Que signifient ces catégories**

**Remarque** : Nova 2.0 inclut des catégories supplémentaires spécifiques au raisonnement (par exemple, `reasoning-code``reasoning-math`,`reasoning-instruction-following`) qui ne sont pas disponibles dans Nova 1.0.

Résumé des catégories et des étiquettes d'information :


| Nom de la catégorie | Détail de l'information | 
| --- | --- | 
| agents | Données de formation axées sur la prise de décision autonome, l'exécution des tâches et le comportement axé sur les objectifs dans les systèmes d'IA | 
| baseline | Données linguistiques fondamentales axées sur la compréhension générale, la communication de base et les capacités linguistiques de base | 
| chat | Des échanges conversationnels démontrant un flux de dialogue naturel, le maintien du contexte et des interactions sociales appropriées | 
| code | Code source de programmation, documentation et discussions techniques à partir de différents langages de programmation et plateformes. | 
| factuality | Matériaux de référence et informations vérifiées axés sur l'exactitude, la validation des sources et l'évaluation de la vérité | 
| identity | Cadres de personnalité et modèles comportementaux axés sur des traits de caractère, des valeurs et des styles d'interaction cohérents | 
| long-context | Des textes étendus et des récits complexes axés sur le maintien de la cohérence et de la pertinence lors de longs échanges | 
| math | Contenu mathématique, y compris les manuels, les problèmes, les solutions et les discussions mathématiques. | 
| rai | Cas et scénarios mettant l'accent sur les principes éthiques de l'IA, les considérations de sécurité et le déploiement responsable des technologies | 
| instruction-following | Exemples d'exécution précise de tâches basées sur différents niveaux d'instructions et de directives utilisateur | 
| stem | Contenu technique couvrant les sciences, la technologie, l'ingénierie et les mathématiques, y compris la résolution de problèmes et les concepts théoriques | 
| planning | Séquences illustrant une réflexion stratégique, une répartition des tâches étape par étape et une allocation efficace des ressources | 
| reasoning-chat | Scénarios de dialogue analytique axés sur des discussions logiques et des flux de conversation structurés | 
| reasoning-code | Défis de programmation et problèmes algorithmiques axés sur le développement systématique de solutions | 
| reasoning-factuality | Scénarios d'évaluation des informations axés sur les processus critiques d'évaluation et de vérification | 
| reasoning-instruction-following | Analyse de tâches complexes axée sur l'interprétation systématique et l'exécution méthodique | 
| reasoning-math | Scénarios mathématiques de résolution de problèmes axés sur la progression logique et les stratégies de résolution | 
| reasoning-planning | Scénarios de prise de décision stratégique axés sur une approche systématique de la réalisation des objectifs | 
| reasoning-rag | Scénarios de recherche et de synthèse d'informations axés sur la compréhension contextuelle et l'application pertinente | 
| reasoning-rai | Scénarios de prise de décision éthique axés sur l'évaluation systématique de la sécurité et de l'équité de l'IA | 
| reasoning-stem | Scénarios scientifiques de résolution de problèmes axés sur l'analyse méthodique et le développement de solutions | 
| rag | Exemples de combinaison efficace de connaissances externes récupérées avec des réponses générées pour fournir des informations contextuelles précises | 
| translation | Multi-language paires de contenus présentant une traduction précise tout en préservant le contexte, le ton et les nuances culturelles | 

#### Guide des paramètres
<a name="nova-forge-cpt-param-guide"></a>
+ **dataset\_catalog :** `cpt_text_lite` à utiliser pour lire des données sélectionnées depuis FSx (par défaut) ou `cpt_text_lite_s3` pour diffuser des données sélectionnées depuis Amazon S3 et réduire les coûts de stockage. Pour de plus amples informations, veuillez consulter [Réduisez les coûts de stockage en diffusant les données de formation depuis Amazon S3](#nova-forge-cpt-s3-catalog).
+ **nova\_data :** pourcentage des catégories individuelles de données Nova lorsqu'elles sont mélangées. Leur somme devrait atteindre 1,0.
+ **customer\_data** : le pourcentage de données du client mélangées aux données Nova.

Le nombre total de jetons utilisés pendant l'entraînement peut être calculé à partir de `max_length` \* `global_batch_size` \* `max_steps`

## Réduisez les coûts de stockage en diffusant les données de formation depuis Amazon S3
<a name="nova-forge-cpt-s3-catalog"></a>

Lorsque vous exécutez des tâches de pré-entraînement continu (CPT), Nova Forge lit par défaut les données de formation sélectionnées par Amazon à partir d'un système de fichiers FSx for Lustre. Le corpus complet organisé est volumineux, et le fait de le conserver sur FSx augmente vos coûts de stockage de formation.

Vous pouvez opter pour une autre mise en page des données qui diffuse les données d'entraînement sélectionnées depuis Amazon S3 pendant la formation. Votre système de fichiers FSx est toujours utilisé pour vos propres ensembles de données, points de contrôle et résultats de tâches, mais les données d'entraînement sélectionnées sont lues directement depuis S3 à la demande. Cela élimine le jeu de données sélectionné de votre espace de stockage FSx et peut réduire de manière significative le coût de stockage des tâches CPT, en particulier pour les sessions de formation de longue durée.

Les données sélectionnées, les ratios de mixage et la composition du jeu de données sont identiques à ceux du catalogue par défaut. Seul l'emplacement de la source change.

### Exigences
<a name="nova-forge-cpt-s3-catalog-requirements"></a>
+ Votre RIG d'entraînement doit être créé le **1er mars 2026 ou après cette** date. Les RIG créés avant cette date n'incluent pas les composants nécessaires pour diffuser les données d'entraînement sélectionnées depuis S3. Si votre RIG est plus ancien, recréez-le pour utiliser cette fonctionnalité.
+ La fonctionnalité s'applique actuellement au catalogue de textes utilisé avec Amazon Nova Lite. Les autres catalogues ne sont pas éligibles.

### Intégrez les données d' S3-backed entraînement dans votre recette
<a name="nova-forge-cpt-s3-catalog-enable"></a>

Dans la `data_mixing` section de votre recette de CPT, passez `dataset_catalog` à`cpt_text_lite_s3`. Tout le reste de votre recette reste le même.

```
run:
  name: my-cpt-run
  model_type: amazon.nova-2-lite-v1:0:256k
  model_name_or_path: nova-lite-2/prod
  replicas: 4
  data_s3_path: s3://my-bucket/my-dataset
  output_s3_path: s3://my-bucket/my-output

training_config:
  task_type: cpt
  max_length: 8192
  global_batch_size: 32
  save_steps: 1000
  trainer:
    max_steps: 5000
  optim:
    lr: 1.0e-05

data_mixing:
  dataset_catalog: cpt_text_lite_s3   # stream curated data from S3
  sources:
    customer_data:
      percent: 25
```

Soumettez le travail en utilisant le même flux de travail que toute autre recette CPT. Nova Forge gère le streaming des données S3 pendant la configuration de l'entraînement, sans configuration supplémentaire de votre part.

### À quoi s'attendre
<a name="nova-forge-cpt-s3-catalog-expectations"></a>
+ Les premières minutes de chaque tâche incluent une courte phase de préparation des données pendant que Nova Forge résout la mise en page des données pour votre région. Cette phase est unique par tâche.
+ Le débit des étapes de formation est comparable à celui du FSx-backed catalogue par défaut. Le chargement des données s'effectue en parallèle avec l'entraînement, de sorte que le streaming S3 ne devient pas un obstacle lors d'un entraînement en régime permanent.
+ Vos propres données d'entraînement (l'ensemble de données que vous fournissez via`data_s3_path`) continuent d'être stockées sur FSx et ne sont pas affectées par ce paramètre.

### Limitations
<a name="nova-forge-cpt-s3-catalog-limitations"></a>
+ Cette fonctionnalité n'est disponible que pour le catalogue de textes sur Amazon Nova Lite. L'utilisation `cpt_text_lite_s3` avec d'autres modèles ou types de tâches entraîne une erreur de catalogue non valide lors de la soumission de la tâche.
+ La modification en `dataset_catalog` milieu de série n'est pas prise en charge. Réglez-le au moment de la soumission de la tâche.

### Revenir au catalogue par défaut
<a name="nova-forge-cpt-s3-catalog-fallback"></a>

Si vous souhaitez revenir au FSx-resident catalogue par défaut à tout moment, définissez-le `dataset_catalog: cpt_text_lite` dans votre recette. Aucune autre modification n'est requise.

**Limitations**  
Le CPT actuel ne prend en charge que les données texte et ne prend en charge aucun ensemble de données multimodaux des clients.