Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Fortsetzung und Pre-Training Mid-Training
<a name="nova-forge-cpt"></a>

**Anmerkung**  
Eine ausführliche Dokumentation wird nach dem Abonnieren zur Verfügung gestellt

Nova Forge CPT bietet erweiterte Funktionen, die über das Standard-CPT hinausgehen, darunter den Zugriff auf zwischengeschaltete Checkpoints und die Datenmischung mit dem Nova-Vortrainingskorpus. Diese Funktionen ermöglichen eine effizientere Domänenanpassung und eine bessere Erhaltung der allgemeinen Fähigkeiten des Modells.

## Was sind Zwischenkontrollpunkte und warum werden sie benötigt?
<a name="nova-forge-cpt-checkpoints"></a>

Zwischenprüfpunkte sind Schnappschüsse des Amazon Nova-Modells, die in verschiedenen Phasen der Vorschulung gespeichert wurden, bevor das Modell seinen endgültigen produktionsreifen Zustand erreicht. Während der Modellentwicklung durchläuft Amazon Nova mehrere Schulungsphasen: anfängliches Vortraining mit konstanter Lernrate, Erhöhung der Lernrate, Schulung zur Kontexterweiterung und schließlich Schulung zur Ausrichtung und Sicherheit nach Anweisungen. Bei CPT sind zwischengeschaltete Checkpoints oft dem finalen Prod-Checkpoint vorzuziehen, da sie plastischer und empfänglicher für Domainanpassungen sind. Der Prod-Checkpoint wurde einem umfassenden Angleichungs- und Sicherheitstraining unterzogen, bei dem die Anweisungen befolgt wurden. Dadurch wurde das Modell zwar für den allgemeinen Gebrauch in Konversationen optimiert, es ist jedoch möglicherweise resistent gegen das Erlernen neuer domänenspezifischer Muster während der CPT. Im Gegensatz dazu behalten Checkpoints, die nur teilweise oder vollständig vortrainierten Text enthalten, die Merkmale des Modells vor dem Training bei. Sie wurden nicht stark auf bestimmte Verhaltensweisen ausgerichtet, was sie zu effizienteren Ausgangspunkten für die Domänenanpassung macht. Bei der Durchführung umfangreicher CPT (>10B-Token) führt der Start von zwischengeschalteten Checkpoints in der Regel zu einer schnelleren Konvergenz, einer besseren Trainingsstabilität und einem effektiveren Erwerb von Fachwissen. Für CPT in kleinem Maßstab (<10 B-Token) oder wenn die Fähigkeit zur Befolgung von Anweisungen beibehalten werden muss, ist der Prod-Checkpoint jedoch möglicherweise besser geeignet, da er eine Domänenanpassung ermöglicht und gleichzeitig die Konversationsfähigkeit des Modells beibehält.

Für CPT sind mehrere Zwischenprüfpunkte erforderlich, da sie unterschiedliche Ebenen der Modellplastizität bieten, die beeinflussen, wie effizient das Modell neues Domänenwissen aufnehmen kann. Der letzte Prod-Checkpoint wurde einem umfassenden Angleichungs- und Sicherheitstraining unterzogen. Dadurch wurde er für allgemeine Konversationszwecke optimiert, ist aber resistent gegen das Erlernen neuer domänenspezifischer Muster. Mit anderen Worten, er wurde nach dem Training noch weiter verschärft. Im Gegensatz dazu haben frühere Checkpoints die Merkmale des Modells vor dem Training beibehalten und waren nicht stark auf bestimmte Verhaltensweisen ausgerichtet, wodurch sie plastischer und empfänglicher für Domänenanpassungen wurden.

Um die beste Trainingseffizienz zu erreichen, sind mehrere Zwischenkontrollpunkte vorgesehen.

## Welche Checkpoints sind verfügbar?
<a name="nova-forge-cpt-available"></a>

**Nova 2.0**  
Es gibt drei Amazon Nova Lite 2.0-Checkpoints.
+ PRE-TRAINED - [`nova-lite-2/pretraining-text-RD`]: Dies ist der Checkpoint nach der konstanten Lernrate und den Ramp-Down-Phasen der Amazon Nova-Vorschulung, bei der das Modell mit Billionen von Tokens trainiert wird.
+ MID-TRAINED - [`nova-lite-2/pretraining-text-CE`]: Dieser Checkpoint ermöglicht die Einführung von Zwischenmengen unstrukturierter Daten mit einer konservativeren Lernrate als vor dem Training, wodurch domänenspezifisches Wissen aufgenommen und gleichzeitig katastrophales Vergessen vermieden wird.
+ POST-TRAINED - [`nova-lite-2/prod`]: Dies ist der vollständig abgestimmte letzte Kontrollpunkt des Modells, das alle damit verbundenen Schritte und die nach dem Training durchzuführenden Schritte durchlaufen hat.

In der folgenden Tabelle werden die verschiedenen Bedingungen für die Dauer des Trainings vor und während des Trainings näher erläutert.


| Datentyp | Durchführen | Mit Checkpoint | 
| --- |--- |--- |
| Large-scale unstrukturierte Domain-Rohdaten (Dokumente, Protokolle, Artikel, Code usw.) | Fortsetzung Pre-Training | Pre-Trained | 
| Large-scale unstrukturierte Domain-Rohdaten (Dokumente, Protokolle, Artikel, Code usw.) | Mid-Training | Pre-Trained | 
| Kleinere Mengen unstrukturierter Rohdaten. Spuren strukturierter Argumentationen/CoT-Daten | Mid-Training | Mid-Trained | 
| Strukturierte Demonstrationen (hochwertige Input-Output-Paare, kuratierte Aufgabenanweisungen, Multi-Turn-Dialoge) | Vollständig Fine-Tuning | Mid-Trained | 
| Strukturierte Demonstrationen (hochwertige Input-Output-Paare, kuratierte Aufgabenanweisungen, Multi-Turn-Dialoge) | Effizienter Parameter Fine-Tuning | Post-Trained | 

## Welcher Checkpoint soll verwendet werden?
<a name="nova-forge-cpt-which"></a>

Checkpoints mit nur teilweise vortrainiertem Text und vollständig vortrainiertem Nur-Text-Checkpoint laufen in der Regel schneller zusammen und erfordern weniger Trainingsschritte für die Domänenanpassung. Sie verfügen jedoch nicht über eine Anpassung der Anweisungen und müssten nach dem Training weitere Schritte durchlaufen, um nützliche Aufgaben ausführen und Anweisungen befolgen zu können. Der GA-Checkpoint erfordert möglicherweise mehr Anpassungsschritte, bietet jedoch einen sichereren Ausgangspunkt für Experimente in kleinem Maßstab und bietet auch nach der CPT-Schulung einige seiner Funktionen nach dem Training.

Im Allgemeinen sollten Sie bei großen Trainingsdatensätzen (>10B-Token) mit Checkpoints beginnen, die nur teilweise oder nur vollständig vortrainierten Text enthalten, um ein effizienteres und stabileres Training zu erreichen, da die Wissensbasis des Modells erheblich verändert wird. Verwenden Sie bei kleinen Datensätzen (<10 B-Tokens) den GA-Checkpoint, um die Funktionen zur Befolgung von Anweisungen beizubehalten und sich gleichzeitig an die Domäne anzupassen.

## Wie verwendet man das Mischen von Daten für Nova 2.0?
<a name="nova-forge-cpt-mixing"></a>

Bei der Durchführung von CPT mit neuen Domänendaten ist es äußerst vorteilhaft, die neuen Daten mit einigen der Daten zu kombinieren, die zuvor in der Vortrainingsphase des Modells verwendet wurden. Durch das Mischen alter Daten mit neuen Domänendaten werden zwei Probleme gelöst:
+ Kontrolle vergessen: Verhindert katastrophales Vergessen, indem vorhandene Fähigkeiten und Kenntnisse über das Modell erhalten bleiben. Ohne Datenmischung führt ein Training ausschließlich mit eng begrenzten Domänendaten dazu, dass das Modell allgemeine Funktionen überschreibt. Beispielsweise kann ein Modell, das nur anhand von Rechtsdokumenten trainiert wurde, seine Fähigkeit zum Programmieren oder Rechnen verlieren. Durch das Mischen der Datensätze für allgemeine Bereiche bleiben diese allgemeinen Fähigkeiten erhalten, während gleichzeitig das neue Fachgebiet erworben wird.
+ Optimierungsstabilität: Die Stabilität des Trainings wird aufrechterhalten, indem die internen Repräsentationen des Modells verankert werden. Während der CPT werden die erlernten Merkmale des Modells modifiziert, und die Datenmischung sorgt für Gradienten aus verschiedenen Quellen, die für eine reibungslose Anpassung sorgen. Ohne sie kann das Training mit engen Verteilungen zu Instabilität der Gradienten führen, sodass sich die Repräsentationen des Modells zu drastisch verschieben, was zu Trainingsdivergenz, Verlustspitzen oder zum Zusammenbruch vorhandener Fähigkeiten führt. Das ist der Kompromiss zwischen Stabilität und Plastizität: Das Modell sollte plastisch genug sein, um neues Fachwissen zu erlernen, aber stabil genug, um das, was es bereits weiß, nicht kaputt zu machen.

**Funktionen zum Mischen von Daten in Nova CPT**  
Der Zugriff auf Amazon Nova-Daten und Checkpoints vor dem Training ist eines der Kernangebote der Amazon Nova CPT-Anpassung. Die CPT-Anpassung von Amazon Nova ermöglicht das einfache Mischen von Domaindaten mit dem Vortrainingskorpus von Amazon Nova. Darüber hinaus kann das Stichprobenverhältnis der spezifischen Amazon Nova-Datenkategorien (z. B. Code, Mathematik, Argumentation usw.) geändert und ihre Proportionen so gesteuert werden, dass sie die Domaindaten ergänzen. Dies ermöglicht die Stärkung der Funktionen, die auf den Anwendungsfall abgestimmt sind, und gleichzeitig das Modell an die spezifische Domäne anzupassen.

**Finden des optimalen Mischungsverhältnisses**  
Das optimale Verhältnis von Amazon Nova-Daten zu Domaindaten hängt von der Domäne, Komplexität, Größe, Qualität und der Bedeutung der Aufrechterhaltung allgemeiner Funktionen des Datensatzes ab. Dieses Verhältnis muss durch Experimente herausgefunden werden. Ein Versuchsrahmen, um zu entscheiden, wie viele Amazon Nova-Daten gemischt werden sollen, sieht wie folgt aus.

Wählen Sie eine repräsentative Teilmenge von Domänendaten (z. B. 5B-Token) aus und halten Sie diese bei allen Versuchsläufen konstant.

Führen Sie kleine CPT-Experimente durch, bei denen nur die Menge der eingemischten Amazon Nova-Daten variiert wird:
+ Keine Vermischung: 100% Domäne → Nur 5B-Domäne (insgesamt 5B)
+ Lichtmischung: 90% Domäne → 5B-Domäne \+ \~0,56 B Amazon Nova (insgesamt \~5,56 B)
+ Mittlere Mischung: 70% Domäne → 5B-Domäne \+ \~2,14 B Amazon Nova (insgesamt \~7,14 B)
+ Starke Mischung: 50% Domäne → 5B-Domäne \+ 5B Amazon Nova (insgesamt 10B)

Bewerten Sie jeden Checkpoint anhand von Domain-Benchmarks und allgemeinen Domain-Benchmarks. Evaluieren Sie auch den Startkontrollpunkt (Amazon Nova-Checkpoint vor jedem Training).
+ Bleibt die Leistung der Kundendomäne bei allen Durchläufen ungefähr konstant? In der Regel sollte dies der Fall sein, da bei jedem Lauf dieselbe Anzahl von Domain-Tokens verwendet wurde. Wenn sich die Domain-Performance bei stärkerer Vermischung verbessert, bieten Amazon Nova-Daten eine nützliche Regularisierung.
+ Verbessern sich die allgemeinen Benchmark-Werte, wenn die Mischung zunimmt?
  + Das erwartete Verhalten ist, dass sich die allgemeinen Funktionen monoton verbessern sollten, wenn mehr Amazon Nova-Daten hinzugefügt werden.
  + Messen Sie mehrere allgemeine Benchmarks: MMLU (Allgemeinwissen), HumanEval (Kodierung), GSM8K (Mathematik) oder spezifische Benchmarks von Interesse.
+ Wählen Sie das Mischungsverhältnis, das die Domänenleistung beibehält und gleichzeitig akzeptable allgemeine Funktionen für die jeweiligen Anwendungsfälle bietet. Berücksichtigen Sie die zusätzlichen Kosten für Schulungen, wenn mehr Daten gemischt werden.

Sobald das optimale Mischungsverhältnis ermittelt wurde, führen Sie CPT in voller Größe aus und verwenden dabei den vollständigen Domänendatensatz mit dem ausgewählten Mischungsverhältnis.

## Analyse der Datenmischungskategorien
<a name="nova-forge-cpt-data-mixing-categories"></a>

Im Folgenden analysieren wir jede verfügbare Kategorie in Data Mixing, damit Sie am besten entscheiden können, welche Datenkategorien in Ihrer gesamten Datenmischung am sinnvollsten dargestellt werden sollen.

### Wie aktiviert man das Mischen von Daten
<a name="nova-forge-cpt-enable-mixing"></a>

Fügen Sie Ihrem Rezept den `data_mixing` Abschnitt mit der entsprechenden prozentualen Verteilung auf die Datensatzkategorien hinzu. Die Summe der `nova_data` Prozentsätze muss 100 ergeben.

#### Nova 2.0-Konfiguration mit Datenmischung
<a name="nova-forge-cpt-nova2-config"></a>

```
# Note:
# This recipe can run on p5.48xlarge

# Run config
display_name: "Nova Lite Pretrain on P5 GPU"
versions: ["2.0"]
instance_types: ["ml.p5.48xlarge"]

run:
  name: "my-cpt-run"     # A descriptive name for your training job
  model_type: "amazon.nova-2-lite-v1:0:256k" # Model variant specification, do not change
  model_name_or_path: "nova-lite-2/prod" # Base model path, do not change
  replicas: 8       # Number of compute instances for training, allowed values are 4, 8, 16, 32
  data_s3_path: ""       # Customer data paths
  validation_data_s3_path: ""        # Customer validation data paths
  output_s3_path: ""   # Output artifact path, SageMaker HyperPod job-specific configuration - not compatible with standard SageMaker Training jobs

## Training specific configs
training_config:
  task_type: cpt
  max_length: 8192              # Maximum context window size (tokens)
  global_batch_size: 64        # Global batch size, allowed values are 32, 64, 128, 256.

  trainer:
    max_steps: 10               # The number of training steps to run total
    val_check_interval: 10      # The number of steps between running validation
    limit_val_batches: 2        # Batches of the validation set to use each trigger

  model:
    hidden_dropout: 0.0           # Dropout for hidden states, must be between 0.0 and 1.0
    attention_dropout: 0.0        # Dropout for attention weights, must be between 0.0 and 1.0

  optim:
    optimizer: adam
    lr: 1e-5                      # Learning rate
    name: distributed_fused_adam  # Optimizer algorithm, do not change
    adam_w_mode: true             # Enable AdamW mode
    eps: 1e-06                    # Epsilon for numerical stability
    weight_decay: 0.0             # L2 regularization strength, must be between 0.0 and 1.0
    adam_beta1: 0.9               # Beta1 for Adam optimizer
    adam_beta2: 0.95              # Beta2 for Adam optimizer
    sched:
      warmup_steps: 10            # Learning rate warmup steps
      constant_steps: 0           # Steps at constant learning rate
      min_lr: 1e-6                # Minimum learning rate, must be lower than lr

data_mixing:
  dataset_catalog: cpt_text_lite
  sources:
    nova_data:   # percent inputs for Nova data must sum to 100%; use 0% if you want to exclude a data grouping
      agents: 20
      business-and-finance: 4
      scientific: 10
      code: 5
      factual-and-news: 5
      longform-text: 6
      health-and-medicine: 1
      humanities-and-education: 1
      legal: 1
      math: 9
      additional-languages: 15
      social-and-personal-interest: 11
      entertainment: 0.5
      reasoning: 10
      other: 0.5
      tables: 1
    customer_data: # percent input of customer data. 100 = use only customer data, 0 = use only the nova_data mix above
      percent: 25
```

**Was bedeuten diese Kategorien**

**Hinweis**: Nova 2.0 enthält zusätzliche Kategorien, die für das Denken spezifisch sind (z. B.`reasoning-code`,`reasoning-math`,`reasoning-instruction-following`), die in Nova 1.0 nicht verfügbar sind.

Zusammenfassung der Kategorien und Informationsbeschriftungen:


| Name der Kategorie | Einzelheiten der Informationen | 
| --- | --- | 
| agents | Die Trainingsdaten konzentrierten sich auf autonome Entscheidungsfindung, Aufgabenerfüllung und zielorientiertes Verhalten in KI-Systemen | 
| baseline | Die grundlegenden Sprachdaten konzentrierten sich auf das allgemeine Verständnis, die grundlegende Kommunikation und die wichtigsten sprachlichen Fähigkeiten | 
| chat | Konversationsaustausch, der einen natürlichen Dialogfluss, die Aufrechterhaltung des Kontextes und angemessene soziale Interaktionen demonstriert | 
| code | Programmierquellcode, Dokumentation und technische Diskussionen aus verschiedenen Programmiersprachen und Plattformen. | 
| factuality | Referenzmaterialien und verifizierte Informationen mit Schwerpunkt auf Genauigkeit, Quellenvalidierung und Wahrheitsbeurteilung | 
| identity | Persönlichkeitsrahmen und Verhaltensmuster konzentrierten sich auf konsistente Charaktereigenschaften, Werte und Interaktionsstile | 
| long-context | Ausführliche Texte und komplexe Erzählungen konzentrierten sich auf die Wahrung von Kohärenz und Relevanz bei längeren Austauschen | 
| math | Mathematische Inhalte, darunter Lehrbücher, Probleme, Lösungen und mathematische Diskussionen. | 
| rai | Fälle und Szenarien, in denen ethische KI-Prinzipien, Sicherheitsüberlegungen und verantwortungsvoller Technologieeinsatz im Vordergrund stehen | 
| instruction-following | Beispiele für die präzise Ausführung von Aufgaben auf der Grundlage unterschiedlicher Ebenen von Benutzeraufforderungen und -anweisungen | 
| stem | Technische Inhalte aus den Bereichen Wissenschaft, Technologie, Ingenieurwesen und Mathematik, einschließlich Problemlösung und theoretischer Konzepte | 
| planning | Sequenzen, die strategisches Denken, schrittweise Aufschlüsselung von Aufgaben und effiziente Ressourcenzuweisung demonstrieren | 
| reasoning-chat | Analytische Dialogszenarien konzentrierten sich auf logische Diskussionen und strukturierte Gesprächsabläufe | 
| reasoning-code | Herausforderungen bei der Programmierung und algorithmische Probleme standen im Mittelpunkt der systematischen Lösungsentwicklung | 
| reasoning-factuality | Die Szenarien zur Informationsbewertung konzentrierten sich auf kritische Bewertungs- und Überprüfungsprozesse | 
| reasoning-instruction-following | Komplexe Aufgabenanalyse mit Schwerpunkt auf systematischer Interpretation und methodischer Ausführung | 
| reasoning-math | Mathematische Problemlösungsszenarien mit Schwerpunkt auf logischer Weiterentwicklung und Lösungsstrategien | 
| reasoning-planning | Strategische Entscheidungsszenarien konzentrierten sich auf einen systematischen Ansatz zur Zielerreichung | 
| reasoning-rag | Szenarien zur Informationsgewinnung und -synthese konzentrierten sich auf das kontextuelle Verständnis und die entsprechende Anwendung | 
| reasoning-rai | Ethische Entscheidungsszenarien konzentrierten sich auf die systematische Bewertung der Sicherheit und Fairness von KI | 
| reasoning-stem | Wissenschaftliche Problemlösungsszenarien mit Schwerpunkt auf methodischer Analyse und Lösungsentwicklung | 
| rag | Beispiele für die effektive Kombination von abgerufenem externem Wissen mit generierten Antworten zur Bereitstellung genauer, kontextbezogener Informationen | 
| translation | Multi-language Inhaltspaare, die eine genaue Übersetzung unter Beibehaltung von Kontext, Tonalität und kulturellen Nuancen zeigen | 

#### Leitfaden für Parameter
<a name="nova-forge-cpt-param-guide"></a>
+ **dataset\_catalog: Wird** verwendet`cpt_text_lite`, um kuratierte Daten aus FSx zu lesen (Standard) oder `cpt_text_lite_s3` um kuratierte Daten aus Amazon S3 zu streamen und die Speicherkosten zu reduzieren. Weitere Informationen finden Sie unter [Senken Sie die Speicherkosten, indem Sie Trainingsdaten von Amazon S3 streamen](#nova-forge-cpt-s3-catalog).
+ **nova\_data:** Prozentsatz der einzelnen Kategorien von Nova-Daten, wenn sie miteinander vermischt wurden. Sie sollten zusammen 1,0 ergeben.
+ **customer\_data**: Der Prozentsatz der Kundendaten, die mit den Nova-Daten vermischt wurden.

Die Gesamtzahl der im Training verwendeten Token kann anhand von\* \* berechnet werden `max_length` `global_batch_size` `max_steps`

## Senken Sie die Speicherkosten, indem Sie Trainingsdaten von Amazon S3 streamen
<a name="nova-forge-cpt-s3-catalog"></a>

Wenn Sie Continued Pre-Training (CPT) -Jobs ausführen, liest Nova Forge standardmäßig von Amazon kuratierte Trainingsdaten aus einem FSx for Lustre-Dateisystem. Das gesamte kuratierte Korpus ist umfangreich, und wenn Sie es auf FSx speichern, erhöhen sich Ihre Speicherkosten für Schulungen.

Sie können sich für ein alternatives Datenlayout entscheiden, das die kuratierten Trainingsdaten während des Trainings von Amazon S3 streamt. Ihr FSx-Dateisystem wird weiterhin für Ihre eigenen Datensätze, Checkpoints und Jobausgaben verwendet, aber die kuratierten Trainingsdaten werden bei Bedarf direkt aus S3 gelesen. Dadurch wird der kuratierte Datensatz aus Ihrem FSx-Speicherbedarf entfernt und die Speicherkosten von CPT-Jobs können erheblich gesenkt werden, insbesondere bei Trainingsläufen mit langer Laufzeit.

Die kuratierten Daten, die Mischungsverhältnisse und die Zusammensetzung der Datensätze sind identisch mit dem Standardkatalog. Nur der Quellspeicherort ändert sich.

### Voraussetzungen
<a name="nova-forge-cpt-s3-catalog-requirements"></a>
+ Ihr Trainings-RIG muss am oder nach dem **1. März 2026** erstellt werden. RIGs, die vor diesem Datum erstellt wurden, enthalten nicht die Komponenten, die zum Streamen der kuratierten Trainingsdaten aus S3 erforderlich sind. Wenn Ihr RIG älter ist, erstellen Sie es neu, um diese Funktion nutzen zu können.
+ Die Funktion gilt derzeit für den Textkatalog, der mit Amazon Nova Lite verwendet wird. Andere Kataloge sind nicht berechtigt.

### Aktiviere S3-backed Trainingsdaten in deinem Rezept
<a name="nova-forge-cpt-s3-catalog-enable"></a>

Wechseln Sie im `data_mixing` Abschnitt Ihres CPT-Rezepts `dataset_catalog` zu`cpt_text_lite_s3`. Alles andere in deinem Rezept bleibt gleich.

```
run:
  name: my-cpt-run
  model_type: amazon.nova-2-lite-v1:0:256k
  model_name_or_path: nova-lite-2/prod
  replicas: 4
  data_s3_path: s3://my-bucket/my-dataset
  output_s3_path: s3://my-bucket/my-output

training_config:
  task_type: cpt
  max_length: 8192
  global_batch_size: 32
  save_steps: 1000
  trainer:
    max_steps: 5000
  optim:
    lr: 1.0e-05

data_mixing:
  dataset_catalog: cpt_text_lite_s3   # stream curated data from S3
  sources:
    customer_data:
      percent: 25
```

Senden Sie den Job mit demselben Workflow wie jedes andere CPT-Rezept. Nova Forge übernimmt das S3-Datenstreaming während der Trainingseinrichtung ohne zusätzliche Konfiguration Ihrerseits.

### Was ist zu erwarten
<a name="nova-forge-cpt-s3-catalog-expectations"></a>
+ Die ersten Minuten jedes Jobs beinhalten eine kurze Phase der Datenvorbereitung, während Nova Forge das Datenlayout für Ihre Region festlegt. Diese Phase ist einmalig pro Job.
+ Der Durchsatz der Trainingsschritte ist mit dem FSx-backed Standardkatalog vergleichbar. Das Laden von Daten erfolgt parallel zum Training, sodass S3-Streaming beim Steady-State-Training nicht zum Engpass wird.
+ Ihre eigenen Trainingsdaten (der Datensatz, den Sie bereitstellen`data_s3_path`) werden weiterhin auf FSx bereitgestellt und sind von dieser Einstellung nicht betroffen.

### Einschränkungen
<a name="nova-forge-cpt-s3-catalog-limitations"></a>
+ Die Funktion ist nur für den Textkatalog auf Amazon Nova Lite verfügbar. Die Verwendung `cpt_text_lite_s3` mit anderen Modellen oder Aufgabentypen führt bei der Auftragsübermittlung zu einem Fehler mit einem ungültigen Katalog.
+ Änderungen während `dataset_catalog` der Ausführung werden nicht unterstützt. Stellen Sie es bei der Einreichung des Jobs ein.

### Zum Standardkatalog zurückkehren
<a name="nova-forge-cpt-s3-catalog-fallback"></a>

Wenn Sie jederzeit zum FSx-resident Standardkatalog zurückkehren möchten, legen Sie dies `dataset_catalog: cpt_text_lite` in Ihrem Rezept fest. Es sind keine weiteren Änderungen erforderlich.

**Einschränkungen**  
Das aktuelle CPT unterstützt nur Textdaten und keine multimodalen Kundendatensätze.