Vorbereitung der Datensätze - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Vorbereitung der Datensätze

Bevor Sie mit einer Modellanpassung beginnen können, müssen Sie einen Trainingsdatensatz minimal vorbereiten. Ob ein Validierungsdatensatz unterstützt wird und welches Format Ihr Trainings- und Validierungsdatensatz hat, hängt von den folgenden Faktoren ab.

  • Die Art der Anpassungsaufgabe (Feinabstimmung oder Fortsetzung der Vorschulung).

  • Die Eingabe- und Ausgabemodalitäten der Daten.

Modellunterstützung für die Feinabstimmung und Fortsetzung des Datenformats vor dem Training

Die folgende Tabelle enthält Einzelheiten zur Feinabstimmung und zur Fortsetzung des Datenformats vor dem Training, das für das jeweilige Modell unterstützt wird:

Modellname Feinabstimmung: ext-to-text Feinabstimmung: & Text-to-image Image-to-embeddings Fortsetzung des Vortrainings:T ext-to-text Feinabstimmung: Nachrichtenübermittlung in einer einzigen Runde Feinabstimmung: Multi-Turn-Messaging
Amazon Titan Text G1 - Express Ja Nein Ja Nein Nein
Amazon Titan Text G1 - Lite Ja Nein Ja Nein Nein
Amazon Titan Text Premier Ja Nein Nein Nein Nein
Amazon Titan Image Generator G1 V1 Ja Ja Nein Nein Nein
Amazon Titan Multimodal Embeddings G1 G 1 Ja Ja Nein Nein Nein
Anthropic Claude 3 Haiku Nein Nein Nein Ja Ja
Cohere Command Ja Nein Nein Nein Nein
Cohere Command Light Ja Nein Nein Nein Nein
Meta Llama 2 13B Ja Nein Nein Nein Nein
Meta Llama 2 70B Ja Nein Nein Nein Nein

Die Standardkontingente, die für Schulungs- und Validierungsdatensätze gelten, die für die Anpassung verschiedener Modelle verwendet werden, finden Sie unter Summe der Kontingente für Schulungs- und Validierungsdatensätze in Amazon Bedrock-Endpunkten und Kontingenten in der. Allgemeine AWS-Referenz

Bereiten Sie Schulungs- und Validierungsdatensätze für Ihr benutzerdefiniertes Modell vor

Um Trainings- und Validierungsdatensätze für Ihr benutzerdefiniertes Modell vorzubereiten, erstellen Sie .jsonl Dateien, von denen jede Zeile ein JSON Objekt ist, das einem Datensatz entspricht. Die von Ihnen erstellten Dateien müssen dem Format für die von Ihnen gewählte Anpassungsmethode und das Modell entsprechen, und die darin enthaltenen Datensätze müssen den Größenanforderungen entsprechen.

Das Format hängt von der Anpassungsmethode und der Eingabe- und Ausgabemodalität des Modells ab. Wählen Sie die Registerkarte aus, die der Methode Ihrer Wahl entspricht, und folgen Sie den Schritten:

Fine-tuning: Text-to-text

Bereiten Sie für text-to-text Modelle einen Datensatz mit Training und optionaler Validierung vor. Jedes JSON Objekt ist eine Stichprobe, die prompt sowohl ein completion UND-Feld enthält. Verwenden Sie 6 Zeichen pro Token als Näherungswert für die Anzahl der Token. Das Format lautet wie folgt.

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

Das folgende Beispiel ist ein Element für eine Frage-Antwort-Aufgabe:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

Bereiten Sie für text-to-image image-to-embedding unsere Modelle einen Trainingsdatensatz vor. Validierungsdatensätze werden nicht unterstützt. Jedes JSON Objekt ist ein Beispielimage-ref, das einen Amazon S3 URI für ein Bild und ein, caption das eine Aufforderung für das Bild sein könnte, enthält.

Die Bilder müssen im PNG Format JPEG OR vorliegen.

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Im Folgenden wird ein Beispielelement gezeigt:

{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Um Amazon Bedrock Zugriff auf die Bilddateien zu gewähren, fügen Sie eine IAM Richtlinie hinzu, die der Servicerolle Amazon Bedrock Model Customization ähnelt, die Sie eingerichtet haben oder die automatisch für Sie in der Konsole eingerichtet wurde. Berechtigungen für den Zugriff auf Schulungs- und Validierungsdateien sowie für das Schreiben von Ausgabedateien in S3 Die Amazon-S3-Pfade, die Sie im Trainingsdatensatz angeben, müssen sich in Ordnern befinden, die Sie in der Richtlinie angeben.

Continued Pre-training: Text-to-text

Um eine fortlaufende Vorschulung an einem text-to-text Modell durchzuführen, bereiten Sie einen Datensatz mit Schulung und optionaler Validierung vor. Da Continued Pre-Training Daten ohne Bezeichnung beinhaltet, ist jede JSON Zeile eine Stichprobe, die nur ein Feld enthält. input Verwenden Sie 6 Zeichen pro Token als Näherungswert für die Anzahl der Token. Das Format lautet wie folgt.

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

Das Folgende ist ein Beispielelement, das in den Trainingsdaten enthalten sein könnte.

{"input": "AWS stands for Amazon Web Services"}
Fine-tuning: Single-turn messaging

Um ein text-to-text Modell mithilfe des Single-Turn-Messaging-Formats zu optimieren, bereiten Sie einen Trainingsdatensatz und optional einen Validierungsdatensatz vor. Beide Datendateien müssen das Format haben. JSONL Jede Zeile gibt ein vollständiges Datenbeispiel im JSON-Format an; und jedes Datenbeispiel muss auf eine Zeile formatiert werden (entfernen Sie alle '\n' in jeder Stichprobe). Eine Zeile mit mehreren Datenstichproben oder die Aufteilung einer Datenprobe auf mehrere Zeilen funktionieren nicht.

Felder

  • system(optional): Eine Zeichenfolge, die eine Systemnachricht enthält, die den Kontext für die Konversation festlegt.

  • messages: Ein Array von Nachrichtenobjekten, die jeweils Folgendes enthalten:

    • role: Entweder user oder assistant

    • content: Der Textinhalt der Nachricht

Regeln

  • Das messages Array muss 2 Nachrichten enthalten

  • Die erste Nachricht muss eine role des Benutzers enthalten

  • Die letzte Nachricht muss eine role des Assistenten enthalten

{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Beispiel

{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
Fine-tuning: Multi-turn messaging

Um ein text-to-text Modell mithilfe des Multi-Turn-Messaging-Formats zu optimieren, bereiten Sie einen Trainingsdatensatz und optional einen Validierungsdatensatz vor. Beide Datendateien müssen das Format haben. JSONL Jede Zeile gibt ein vollständiges Datenbeispiel im JSON-Format an; und jedes Datenbeispiel muss auf eine Zeile formatiert werden (entfernen Sie alle '\n' in jeder Stichprobe). Eine Zeile mit mehreren Datenstichproben oder die Aufteilung einer Datenprobe auf mehrere Zeilen funktionieren nicht.

Felder

  • system(optional): Eine Zeichenfolge, die eine Systemnachricht enthält, die den Kontext für die Konversation festlegt.

  • messages: Ein Array von Nachrichtenobjekten, die jeweils Folgendes enthalten:

    • role: Entweder user oder assistant

    • content: Der Textinhalt der Nachricht

Regeln

  • Das messages Array muss 2 Nachrichten enthalten

  • Die erste Nachricht muss eine role des Benutzers enthalten

  • Die letzte Nachricht muss eine role des Assistenten enthalten

  • Nachrichten müssen zwischen assistant Rollen user und Rollen wechseln.

{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Beispiel

{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

Wählen Sie eine Registerkarte aus, um die Anforderungen für Trainings- und Validierungsdatensätze für ein Modell anzuzeigen:

Amazon Titan Text Premier
Beschreibung Maximum (Feinabstimmung)
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist 4.096
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 2, 3 oder 4 ist N/A
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6
Dateigröße des Trainingsdatensatzes 1 GB
Dateigröße des Validierungsdatensatzes 100 MB
Amazon Titan Text G1 - Express
Beschreibung Maximum (Fortsetzung der Vorschulung) Maximum (Feinabstimmung)
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist 4.096 4.096
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 2, 3 oder 4 ist 2 048 2 048
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6 Token-Kontingent x 6
Dateigröße des Trainingsdatensatzes 10 GB 1 GB
Dateigröße des Validierungsdatensatzes 100 MB 100 MB
Amazon Titan Text G1 - Lite
Beschreibung Maximum (Fortsetzung der Vorschulung) Maximum (Feinabstimmung)
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 1 oder 2 ist 4.096 4.096
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 3, 4, 5 oder 6 ist 2 048 2 048
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6 Token-Kontingent x 6
Dateigröße des Trainingsdatensatzes 10 GB 1 GB
Dateigröße des Validierungsdatensatzes 100 MB 100 MB
Amazon Titan Image Generator G1 V1
Beschreibung Minimum (Feinabstimmung) Maximum (Feinabstimmung)
Länge der Texteingabeaufforderung in der Trainingsprobe, in Zeichen 3 1,024
Datensätze in einem Trainingsdatensatz 5 10.000
Größe des Eingabebilds 0 50 MB
Höhe des Eingabebilds in Pixeln 512 4.096
Breite des Eingabebilds in Pixeln 512 4.096
Gesamtzahl der Pixel des Eingabebilds 0 12.582.912
Seitenverhältnis des Eingabebilds 1:4 4:1
Amazon Titan Multimodal Embeddings G1
Beschreibung Minimum (Feinabstimmung) Maximum (Feinabstimmung)
Länge der Texteingabeaufforderung in der Trainingsprobe, in Zeichen 0 2.560
Aufzeichnungen in einem Trainingsdatensatz 1.000 500 000
Größe des Eingabebilds 0 5 MB
Höhe des Eingabebilds in Pixeln 128 4096
Breite des Eingabebilds in Pixeln 128 4096
Gesamtzahl der Pixel des Eingabebilds 0 12.528.912
Seitenverhältnis des Eingabebilds 1:4 4:1
Cohere Command
Beschreibung Maximum (Feinabstimmung)
Geben Sie Tokens ein 4.096
Ausgabetokens 2 048
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6
Datensätze in einem Trainingsdatensatz 10.000
Datensätze in einem Validierungsdatensatz 1.000
Meta Llama 2
Beschreibung Maximum (Feinabstimmung)
Geben Sie Tokens ein 4.096
Ausgabetokens 2 048
Zeichenkontingent pro Stichprobe im Datensatz Token-Kontingent x 6