Modellunterstützung für Destillation, Feinabstimmung und kontinuierliche Vorschulung Bereiten Sie Datensätze für Ihr benutzerdefiniertes Modell vor

Vorbereitung der Datensätze

Bevor Sie mit einer Modellanpassung beginnen können, müssen Sie mindestens einen Trainingsdatensatz vorbereiten. Ob ein Validierungsdatensatz unterstützt wird und welches Format Ihr Trainings- und Validierungsdatensatz hat, hängt von den folgenden Faktoren ab.

Die Art des Anpassungsauftrags (Destillation, Feinabstimmung oder Fortsetzung der Vorschulung).

Wenn Sie beabsichtigen, Destillation zu verwenden, finden Sie Voraussetzungen für Amazon Bedrock Model Distillation weitere Informationen unter.
Die Eingabe- und Ausgabemodalitäten der Daten.

Modellunterstützung für Destillation, Feinabstimmung und kontinuierliche Vorschulung

In der folgenden Tabelle sind die Input- und Outputmodalitäten für die Destillation, Feinabstimmung und weitere Vorschulung aufgeführt, die für das jeweilige Modell unterstützt werden:

Modellname	Destillation: Text-to-text	Feinabstimmung: T ext-to-text	Feinabstimmung: & Text-to-image Image-to-embeddings	Feinabstimmung: Text+ und Text+Video-zu-Text Image-to-Text	Fortsetzung der Vorschulung: ext-to-text	Feinabstimmung: Nachrichtenübermittlung in einer einzigen Runde	Feinabstimmung: Multi-Turn-Messaging
Amazon Nova Pro	Ja	Ja	Ja	Ja	Nein	Ja	Ja
Amazon Nova Lite	Ja	Ja	Ja	Ja	Nein	Ja	Ja
Amazon Nova Micro	Ja	Ja	Nein	Nein	Nein	Ja	Ja
Amazon Titan Text G1 - Express	Nein	Ja	Nein	Nein	Ja	Nein	Nein
Amazon Titan Text G1 - Lite	Nein	Ja	Nein	Nein	Ja	Nein	Nein
Amazon Titan Text Premier	Nein	Ja	Nein	Nein	Nein	Nein	Nein
Amazon Titan Image Generator G1 V1	Nein	Ja	Ja	Nein	Nein	Nein	Nein
Amazon Titan Multimodal Embeddings G1 G 1	Nein	Ja	Ja	Nein	Nein	Nein	Nein
Anthropic Claude 3 Haiku	Ja	Nein	Nein	Nein	Nein	Ja	Ja
Cohere Command	Nein	Ja	Nein	Nein	Nein	Nein	Nein
Cohere Command Light	Nein	Ja	Nein	Nein	Nein	Nein	Nein
Meta Llama 2 13B	Nein	Ja	Nein	Nein	Nein	Nein	Nein
Meta Llama 2 70B	Nein	Ja	Nein	Nein	Nein	Nein	Nein

Die Standardkontingente, die für Schulungs- und Validierungsdatensätze gelten, die für die Anpassung verschiedener Modelle verwendet werden, finden Sie unter Summe der Kontingente für Schulungs- und Validierungsdatensätze in Amazon Bedrock-Endpunkten und Kontingenten in der. Allgemeine AWS-Referenz

Bereiten Sie Datensätze für Ihr benutzerdefiniertes Modell vor

Um Trainings- und Validierungsdatensätze für Ihr benutzerdefiniertes Modell vorzubereiten, erstellen Sie .jsonl Dateien, von denen jede Zeile ein JSON-Objekt ist, das einem Datensatz entspricht. Die von Ihnen erstellten Dateien müssen dem Format für die von Ihnen gewählte Anpassungsmethode und das Modell entsprechen, und die darin enthaltenen Datensätze müssen den Größenanforderungen entsprechen.

Das Format hängt von der Anpassungsmethode und der Eingabe- und Ausgabemodalität des Modells ab. Wählen Sie die Registerkarte für Ihre bevorzugte Methode und folgen Sie dann den Schritten:

Fine-tuning: Text-to-text

Wählen Sie in der &Snowconsole; Ihren Auftrag aus der Tabelle. Titan, Cohere, und Llama text-to-textModelle, bereiten Sie einen Trainingsdatensatz und optional einen Validierungsdatensatz vor. Jedes JSON-Objekt ist ein Beispiel, das prompt sowohl ein completion UN-Feld enthält. Verwenden Sie 6 Zeichen pro Token als Näherungswert für die Anzahl der Token. Das Format ist wie folgt:


{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}

Das folgende Beispiel ist ein Element für eine Frage-Antwort-Aufgabe:


{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}

Amazon Nova Modelle erwarten die Trainingsdaten in einer anderen JSON-Struktur. Diese Modelle verwenden eine Systemaufforderung zusammen mit "role": "user" "role": "assistant" Meldungen zur Feinabstimmung des Modells. Das Format ist wie folgt:


// train.jsonl
{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [
    {
      "text": "You are a digital assistant with a friendly personality"
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "What is the capital of Mars?"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "text": "Mars does not have a capital. Perhaps it will one day."
        }
      ]
    }
  ]
}

Weitere Informationen finden Sie in den Anweisungen unter Richtlinien für die Vorbereitung Ihrer Daten für Amazon Nova.

Fine-tuning: Text-to-image & Image-to-embeddings

Anmerkung

Amazon Nova Modelle haben unterschiedliche Anforderungen an die Feinabstimmung. Folgen Sie zur Feinabstimmung dieser Modelle den Anweisungen unter Richtlinien für die Vorbereitung Ihrer Daten für Amazon Nova.

Bereiten Sie für text-to-image image-to-embedding unsere Modelle einen Trainingsdatensatz vor. Validierungsdatensätze werden nicht unterstützt. Jedes JSON-Objekt ist ein Beispielimage-ref, das eine Amazon S3 S3-URI für ein Bild und eine, caption die eine Aufforderung für das Bild sein könnte, enthält.

Die Bilder müssen im JPEG- oder PNG-Format vorliegen.


{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Im Folgenden wird ein Beispielelement gezeigt:


{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Um Amazon Bedrock Zugriff auf die Bilddateien zu gewähren, fügen Sie eine IAM-Richtlinie hinzu, die der Service-Rolle für die Amazon Bedrock-Modellanpassung ähnelt, die Sie eingerichtet haben oder die automatisch für Sie in der Konsole eingerichtet wurde. Berechtigungen für den Zugriff auf Schulungs- und Validierungsdateien sowie für das Schreiben von Ausgabedateien in S3 Die Amazon-S3-Pfade, die Sie im Trainingsdatensatz angeben, müssen sich in Ordnern befinden, die Sie in der Richtlinie angeben.

Continued Pre-training: Text-to-text

Um eine fortlaufende Vorschulung an einem text-to-text Modell durchzuführen, bereiten Sie einen Datensatz mit Schulung und optionaler Validierung vor. Da Continued Pre-Training Daten ohne Label beinhaltet, ist jede JSON-Zeile eine Stichprobe, die nur ein Feld enthält. input Verwenden Sie 6 Zeichen pro Token als Näherungswert für die Anzahl der Token. Das Format lautet wie folgt.


{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}

Das Folgende ist ein Beispielelement, das in den Trainingsdaten enthalten sein könnte.


{"input": "AWS stands for Amazon Web Services"}

Fine-tuning: Single-turn messaging

Anmerkung

Um ein text-to-text Modell mithilfe des Single-Turn-Messaging-Formats zu verfeinern, bereiten Sie einen Trainingsdatensatz und optional einen Validierungsdatensatz vor. Beide Datendateien müssen im JSONL-Format vorliegen. Jede Zeile gibt ein vollständiges Datenbeispiel im JSON-Format an; und jedes Datenbeispiel muss auf eine Zeile formatiert werden (entfernen Sie alle '\n' in jeder Stichprobe). Eine Zeile mit mehreren Datenstichproben oder die Aufteilung einer Datenprobe auf mehrere Zeilen funktionieren nicht.

Felder

system(optional): Eine Zeichenfolge, die eine Systemnachricht enthält, die den Kontext für die Konversation festlegt.
messages: Ein Array von Nachrichtenobjekten, die jeweils Folgendes enthalten:
- role: Entweder user oder assistant
- content: Der Textinhalt der Nachricht

Regeln

Das messages Array muss 2 Nachrichten enthalten
Die erste Nachricht muss eine role des Benutzers enthalten
Die letzte Nachricht muss eine role des Assistenten enthalten


{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Beispiel


{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}

Fine-tuning: Multi-turn messaging

Anmerkung

Um ein text-to-text Modell mithilfe des Multi-Turn-Messaging-Formats zu verfeinern, bereiten Sie einen Trainingsdatensatz und optional einen Validierungsdatensatz vor. Beide Datendateien müssen im JSONL-Format vorliegen. Jede Zeile gibt ein vollständiges Datenbeispiel im JSON-Format an; und jedes Datenbeispiel muss auf eine Zeile formatiert werden (entfernen Sie alle '\n' in jeder Stichprobe). Eine Zeile mit mehreren Datenstichproben oder die Aufteilung einer Datenprobe auf mehrere Zeilen funktionieren nicht.

Felder

system(optional): Eine Zeichenfolge, die eine Systemnachricht enthält, die den Kontext für die Konversation festlegt.
messages: Ein Array von Nachrichtenobjekten, die jeweils Folgendes enthalten:
- role: Entweder user oder assistant
- content: Der Textinhalt der Nachricht

Regeln

Das messages Array muss mindestens 2 Nachrichten enthalten
Die erste Nachricht muss eine role des Benutzers enthalten
Die letzte Nachricht muss eine role des Assistenten enthalten
Nachrichten müssen zwischen assistant Rollen user und Rollen wechseln.


{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Beispiel


{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

Distillation

Anmerkung

Amazon Nova Modelle haben unterschiedliche Anforderungen. Um diese Modelle zu destillieren, folgen Sie den Anweisungen unter Destillieren Amazon Nova Modelle.

Informationen zur Vorbereitung von Trainings- und Validierungsdatensätzen für eine Modelldestillation finden Sie unterVoraussetzungen für Amazon Bedrock Model Distillation.

Wählen Sie eine Registerkarte aus, um die Anforderungen für Trainings- und Validierungsdatensätze für ein Modell zu sehen:

Amazon Nova

Modell	Mindestanzahl an Stichproben	Maximale Anzahl an Stichproben	Länge des Kontextes
Amazon Nova Micro	100	20 k	32 k
Amazon Nova Lite	8	20.000 (10.000 für ein Dokument)	32 KB
Amazon Nova Pro	100	10 k	32 k

Einschränkungen bei Bild und Video

Maximale Größe der Bilddatei	10 MB
Maximale Anzahl an Videos	1 pro Probe
Maximale Videolänge oder Dauer	90 Sekunden
Maximale Größe der Videodatei	50 MB
Unterstützte Bildformate	PNG, JPEG, GIF, WEBP
Unterstützte Videoformate	MOV, MKV MP4, WEBM

Amazon Titan Text Premier

Beschreibung	Maximum (Feinabstimmung)
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist	4.096
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 2, 3 oder 4 ist	N/A
Zeichenkontingent pro Stichprobe im Datensatz	Token-Kontingent x 6
Dateigröße des Trainingsdatensatzes	1 GB
Dateigröße des Validierungsdatensatzes	100 MB

Amazon Titan Text G1 - Express

Beschreibung	Maximum (Fortsetzung der Vorschulung)	Maximum (Feinabstimmung)
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist	4.096	4.096
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 2, 3 oder 4 ist	2 048	2 048
Zeichenkontingent pro Stichprobe im Datensatz	Token-Kontingent x 6	Token-Kontingent x 6
Dateigröße des Trainingsdatensatzes	10 GB	1 GB
Dateigröße des Validierungsdatensatzes	100 MB	100 MB

Amazon Titan Text G1 - Lite

Beschreibung	Maximum (Fortsetzung der Vorschulung)	Maximum (Feinabstimmung)
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 1 oder 2 ist	4.096	4.096
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 3, 4, 5 oder 6 ist	2 048	2 048
Zeichenkontingent pro Stichprobe im Datensatz	Token-Kontingent x 6	Token-Kontingent x 6
Dateigröße des Trainingsdatensatzes	10 GB	1 GB
Dateigröße des Validierungsdatensatzes	100 MB	100 MB

Amazon Titan Image Generator G1 V1

Beschreibung	Minimum (Feinabstimmung)	Maximum (Feinabstimmung)
Länge der Texteingabeaufforderung in der Trainingsprobe, in Zeichen	3	1,024
Datensätze in einem Trainingsdatensatz	5	10.000
Größe des Eingabebilds	0	50 MB
Höhe des Eingabebilds in Pixeln	512	4.096
Breite des Eingabebilds in Pixeln	512	4.096
Gesamtzahl der Pixel des Eingabebilds	0	12.582.912
Seitenverhältnis des Eingabebilds	1:4	4:1

Amazon Titan Multimodal Embeddings G1

Beschreibung	Minimum (Feinabstimmung)	Maximum (Feinabstimmung)
Länge der Texteingabeaufforderung in der Trainingsprobe, in Zeichen	0	2.560
Aufzeichnungen in einem Trainingsdatensatz	1.000	500 000
Größe des Eingabebilds	0	5 MB
Höhe des Eingabebilds in Pixeln	128	4096
Breite des Eingabebilds in Pixeln	128	4096
Gesamtzahl der Pixel des Eingabebilds	0	12.528.912
Seitenverhältnis des Eingabebilds	1:4	4:1

Cohere Command

Beschreibung	Maximum (Feinabstimmung)
Geben Sie Tokens ein	4.096
Ausgabetokens	2 048
Zeichenkontingent pro Stichprobe im Datensatz	Token-Kontingent x 6
Datensätze in einem Trainingsdatensatz	10.000
Datensätze in einem Validierungsdatensatz	1.000

Meta Llama 2

Beschreibung	Maximum (Feinabstimmung)
Geben Sie Tokens ein	4.096
Ausgabetokens	2 048
Zeichenkontingent pro Stichprobe im Datensatz	Token-Kontingent x 6

Meta Llama 3.1

Beschreibung	Maximum (Feinabstimmung)
Geben Sie Tokens ein	16,000
Ausgabetokens	16,000
Zeichenkontingent pro Stichprobe im Datensatz	Token-Kontingent x 6

Die Richtlinien zur Datenvorbereitung von Amazon Nova finden Sie unter Richtlinien für die Vorbereitung Ihrer Daten für Amazon Nova.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Voraussetzungen für die Modellanpassung

[Optional] Schützen Sie Ihre Modellanpassungsaufträge mit einer VPC