Vorbereitung der Datensätze - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Vorbereitung der Datensätze

Bevor Sie mit einer Modellanpassung beginnen können, müssen Sie mindestens einen Trainingsdatensatz vorbereiten. Ob ein Validierungsdatensatz unterstützt wird und welches Format Ihr Trainings- und Validierungsdatensatz hat, hängt von den folgenden Faktoren ab.

  • Die Art des Anpassungsauftrags (Destillation, Feinabstimmung oder Fortsetzung der Vorschulung).

    Wenn Sie beabsichtigen, Destillation zu verwenden, finden Sie Voraussetzungen für Amazon Bedrock Model Distillation weitere Informationen unter.

  • Die Eingabe- und Ausgabemodalitäten der Daten.

Modellunterstützung für Destillation, Feinabstimmung und kontinuierliche Vorschulung

In der folgenden Tabelle sind die Input- und Outputmodalitäten für die Destillation, Feinabstimmung und weitere Vorschulung aufgeführt, die für das jeweilige Modell unterstützt werden:

Modellname Destillation: Text-to-text Feinabstimmung: T ext-to-text Feinabstimmung: & Text-to-image Image-to-embeddings Feinabstimmung: Text+ und Text+Video-zu-Text Image-to-Text Fortsetzung der Vorschulung: ext-to-text Feinabstimmung: Nachrichtenübermittlung in einer einzigen Runde Feinabstimmung: Multi-Turn-Messaging
Amazon Nova Pro Ja Ja Ja Ja Nein Ja Ja
Amazon Nova Lite Ja Ja Ja Ja Nein Ja Ja
Amazon Nova Micro Ja Ja Nein Nein Nein Ja Ja
Amazon Titan Text G1 - Express Nein Ja Nein Nein Ja Nein Nein
Amazon Titan Text G1 - Lite Nein Ja Nein Nein Ja Nein Nein
Amazon Titan Text Premier Nein Ja Nein Nein Nein Nein Nein
Amazon Titan Image Generator G1 V1 Nein Ja Ja Nein Nein Nein Nein
Amazon Titan Multimodal Embeddings G1 G 1 Nein Ja Ja Nein Nein Nein Nein
Anthropic Claude 3 Haiku Ja Nein Nein Nein Nein Ja Ja
Cohere Command Nein Ja Nein Nein Nein Nein Nein
Cohere Command Light Nein Ja Nein Nein Nein Nein Nein
Meta Llama 2 13B Nein Ja Nein Nein Nein Nein Nein
Meta Llama 2 70B Nein Ja Nein Nein Nein Nein Nein

Die Standardkontingente, die für Schulungs- und Validierungsdatensätze gelten, die für die Anpassung verschiedener Modelle verwendet werden, finden Sie unter Summe der Kontingente für Schulungs- und Validierungsdatensätze in Amazon Bedrock-Endpunkten und Kontingenten in der. Allgemeine AWS-Referenz

Bereiten Sie Datensätze für Ihr benutzerdefiniertes Modell vor

Um Trainings- und Validierungsdatensätze für Ihr benutzerdefiniertes Modell vorzubereiten, erstellen Sie .jsonl Dateien, von denen jede Zeile ein JSON-Objekt ist, das einem Datensatz entspricht. Die von Ihnen erstellten Dateien müssen dem Format für die von Ihnen gewählte Anpassungsmethode und das Modell entsprechen, und die darin enthaltenen Datensätze müssen den Größenanforderungen entsprechen.

Das Format hängt von der Anpassungsmethode und der Eingabe- und Ausgabemodalität des Modells ab. Wählen Sie die Registerkarte für Ihre bevorzugte Methode und folgen Sie dann den Schritten:

Fine-tuning: Text-to-text

Wählen Sie in der &Snowconsole; Ihren Auftrag aus der Tabelle. Titan, Cohere, und Llama text-to-textModelle, bereiten Sie einen Trainingsdatensatz und optional einen Validierungsdatensatz vor. Jedes JSON-Objekt ist ein Beispiel, das prompt sowohl ein completion UN-Feld enthält. Verwenden Sie 6 Zeichen pro Token als Näherungswert für die Anzahl der Token. Das Format ist wie folgt:

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

Das folgende Beispiel ist ein Element für eine Frage-Antwort-Aufgabe:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}

Amazon Nova Modelle erwarten die Trainingsdaten in einer anderen JSON-Struktur. Diese Modelle verwenden eine Systemaufforderung zusammen mit "role": "user" "role": "assistant" Meldungen zur Feinabstimmung des Modells. Das Format ist wie folgt:

// train.jsonl { "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What is the capital of Mars?" } ] }, { "role": "assistant", "content": [ { "text": "Mars does not have a capital. Perhaps it will one day." } ] } ] }

Weitere Informationen finden Sie in den Anweisungen unter Richtlinien für die Vorbereitung Ihrer Daten für Amazon Nova.

Fine-tuning: Text-to-image & Image-to-embeddings
Anmerkung

Amazon Nova Modelle haben unterschiedliche Anforderungen an die Feinabstimmung. Folgen Sie zur Feinabstimmung dieser Modelle den Anweisungen unter Richtlinien für die Vorbereitung Ihrer Daten für Amazon Nova.

Bereiten Sie für text-to-image image-to-embedding unsere Modelle einen Trainingsdatensatz vor. Validierungsdatensätze werden nicht unterstützt. Jedes JSON-Objekt ist ein Beispielimage-ref, das eine Amazon S3 S3-URI für ein Bild und eine, caption die eine Aufforderung für das Bild sein könnte, enthält.

Die Bilder müssen im JPEG- oder PNG-Format vorliegen.

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Im Folgenden wird ein Beispielelement gezeigt:

{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Um Amazon Bedrock Zugriff auf die Bilddateien zu gewähren, fügen Sie eine IAM-Richtlinie hinzu, die der Service-Rolle für die Amazon Bedrock-Modellanpassung ähnelt, die Sie eingerichtet haben oder die automatisch für Sie in der Konsole eingerichtet wurde. Berechtigungen für den Zugriff auf Schulungs- und Validierungsdateien sowie für das Schreiben von Ausgabedateien in S3 Die Amazon-S3-Pfade, die Sie im Trainingsdatensatz angeben, müssen sich in Ordnern befinden, die Sie in der Richtlinie angeben.

Continued Pre-training: Text-to-text

Um eine fortlaufende Vorschulung an einem text-to-text Modell durchzuführen, bereiten Sie einen Datensatz mit Schulung und optionaler Validierung vor. Da Continued Pre-Training Daten ohne Label beinhaltet, ist jede JSON-Zeile eine Stichprobe, die nur ein Feld enthält. input Verwenden Sie 6 Zeichen pro Token als Näherungswert für die Anzahl der Token. Das Format lautet wie folgt.

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

Das Folgende ist ein Beispielelement, das in den Trainingsdaten enthalten sein könnte.

{"input": "AWS stands for Amazon Web Services"}
Fine-tuning: Single-turn messaging
Anmerkung

Amazon Nova Modelle haben unterschiedliche Anforderungen an die Feinabstimmung. Folgen Sie zur Feinabstimmung dieser Modelle den Anweisungen unter Richtlinien für die Vorbereitung Ihrer Daten für Amazon Nova.

Um ein text-to-text Modell mithilfe des Single-Turn-Messaging-Formats zu verfeinern, bereiten Sie einen Trainingsdatensatz und optional einen Validierungsdatensatz vor. Beide Datendateien müssen im JSONL-Format vorliegen. Jede Zeile gibt ein vollständiges Datenbeispiel im JSON-Format an; und jedes Datenbeispiel muss auf eine Zeile formatiert werden (entfernen Sie alle '\n' in jeder Stichprobe). Eine Zeile mit mehreren Datenstichproben oder die Aufteilung einer Datenprobe auf mehrere Zeilen funktionieren nicht.

Felder

  • system(optional): Eine Zeichenfolge, die eine Systemnachricht enthält, die den Kontext für die Konversation festlegt.

  • messages: Ein Array von Nachrichtenobjekten, die jeweils Folgendes enthalten:

    • role: Entweder user oder assistant

    • content: Der Textinhalt der Nachricht

Regeln

  • Das messages Array muss 2 Nachrichten enthalten

  • Die erste Nachricht muss eine role des Benutzers enthalten

  • Die letzte Nachricht muss eine role des Assistenten enthalten

{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Beispiel

{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
Fine-tuning: Multi-turn messaging
Anmerkung

Amazon Nova Modelle haben unterschiedliche Anforderungen an die Feinabstimmung. Folgen Sie zur Feinabstimmung dieser Modelle den Anweisungen unter Richtlinien für die Vorbereitung Ihrer Daten für Amazon Nova.

Um ein text-to-text Modell mithilfe des Multi-Turn-Messaging-Formats zu verfeinern, bereiten Sie einen Trainingsdatensatz und optional einen Validierungsdatensatz vor. Beide Datendateien müssen im JSONL-Format vorliegen. Jede Zeile gibt ein vollständiges Datenbeispiel im JSON-Format an; und jedes Datenbeispiel muss auf eine Zeile formatiert werden (entfernen Sie alle '\n' in jeder Stichprobe). Eine Zeile mit mehreren Datenstichproben oder die Aufteilung einer Datenprobe auf mehrere Zeilen funktionieren nicht.

Felder

  • system(optional): Eine Zeichenfolge, die eine Systemnachricht enthält, die den Kontext für die Konversation festlegt.

  • messages: Ein Array von Nachrichtenobjekten, die jeweils Folgendes enthalten:

    • role: Entweder user oder assistant

    • content: Der Textinhalt der Nachricht

Regeln

  • Das messages Array muss mindestens 2 Nachrichten enthalten

  • Die erste Nachricht muss eine role des Benutzers enthalten

  • Die letzte Nachricht muss eine role des Assistenten enthalten

  • Nachrichten müssen zwischen assistant Rollen user und Rollen wechseln.

{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Beispiel

{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
Distillation
Anmerkung

Amazon Nova Modelle haben unterschiedliche Anforderungen. Um diese Modelle zu destillieren, folgen Sie den Anweisungen unter Destillieren Amazon Nova Modelle.

Informationen zur Vorbereitung von Trainings- und Validierungsdatensätzen für eine Modelldestillation finden Sie unterVoraussetzungen für Amazon Bedrock Model Distillation.

Wählen Sie eine Registerkarte aus, um die Anforderungen für Trainings- und Validierungsdatensätze für ein Modell zu sehen:

Amazon Nova
Modell Mindestanzahl an Stichproben Maximale Anzahl an Stichproben Länge des Kontextes
Amazon Nova Micro 100 20 k 32 k
Amazon Nova Lite 8 20.000 (10.000 für ein Dokument) 32 KB
Amazon Nova Pro 100 10 k 32 k

Einschränkungen bei Bild und Video

Maximale Größe der Bilddatei 10 MB
Maximale Anzahl an Videos 1 pro Probe
Maximale Videolänge oder Dauer 90 Sekunden
Maximale Größe der Videodatei 50 MB
Unterstützte Bildformate PNG, JPEG, GIF, WEBP
Unterstützte Videoformate MOV, MKV MP4, WEBM
Amazon Titan Text Premier
Beschreibung Maximum (Feinabstimmung)
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist 4.096
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 2, 3 oder 4 ist N/A
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6
Dateigröße des Trainingsdatensatzes 1 GB
Dateigröße des Validierungsdatensatzes 100 MB
Amazon Titan Text G1 - Express
Beschreibung Maximum (Fortsetzung der Vorschulung) Maximum (Feinabstimmung)
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist 4.096 4.096
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 2, 3 oder 4 ist 2 048 2 048
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6 Token-Kontingent x 6
Dateigröße des Trainingsdatensatzes 10 GB 1 GB
Dateigröße des Validierungsdatensatzes 100 MB 100 MB
Amazon Titan Text G1 - Lite
Beschreibung Maximum (Fortsetzung der Vorschulung) Maximum (Feinabstimmung)
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 1 oder 2 ist 4.096 4.096
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 3, 4, 5 oder 6 ist 2 048 2 048
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6 Token-Kontingent x 6
Dateigröße des Trainingsdatensatzes 10 GB 1 GB
Dateigröße des Validierungsdatensatzes 100 MB 100 MB
Amazon Titan Image Generator G1 V1
Beschreibung Minimum (Feinabstimmung) Maximum (Feinabstimmung)
Länge der Texteingabeaufforderung in der Trainingsprobe, in Zeichen 3 1,024
Datensätze in einem Trainingsdatensatz 5 10.000
Größe des Eingabebilds 0 50 MB
Höhe des Eingabebilds in Pixeln 512 4.096
Breite des Eingabebilds in Pixeln 512 4.096
Gesamtzahl der Pixel des Eingabebilds 0 12.582.912
Seitenverhältnis des Eingabebilds 1:4 4:1
Amazon Titan Multimodal Embeddings G1
Beschreibung Minimum (Feinabstimmung) Maximum (Feinabstimmung)
Länge der Texteingabeaufforderung in der Trainingsprobe, in Zeichen 0 2.560
Aufzeichnungen in einem Trainingsdatensatz 1.000 500 000
Größe des Eingabebilds 0 5 MB
Höhe des Eingabebilds in Pixeln 128 4096
Breite des Eingabebilds in Pixeln 128 4096
Gesamtzahl der Pixel des Eingabebilds 0 12.528.912
Seitenverhältnis des Eingabebilds 1:4 4:1
Cohere Command
Beschreibung Maximum (Feinabstimmung)
Geben Sie Tokens ein 4.096
Ausgabetokens 2 048
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6
Datensätze in einem Trainingsdatensatz 10.000
Datensätze in einem Validierungsdatensatz 1.000
Meta Llama 2
Beschreibung Maximum (Feinabstimmung)
Geben Sie Tokens ein 4.096
Ausgabetokens 2 048
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6
Meta Llama 3.1
Beschreibung Maximum (Feinabstimmung)
Geben Sie Tokens ein 16,000
Ausgabetokens 16,000
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6

Die Richtlinien zur Datenvorbereitung von Amazon Nova finden Sie unter Richtlinien für die Vorbereitung Ihrer Daten für Amazon Nova.