Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Vorbereitung der Datensätze
Bevor Sie mit einer Modellanpassung beginnen können, müssen Sie einen Trainingsdatensatz minimal vorbereiten. Ob ein Validierungsdatensatz unterstützt wird und welches Format Ihr Trainings- und Validierungsdatensatz hat, hängt von den folgenden Faktoren ab.
Modellunterstützung für die Feinabstimmung und Fortsetzung des Datenformats vor dem Training
Die folgende Tabelle enthält Einzelheiten zur Feinabstimmung und zur Fortsetzung des Datenformats vor dem Training, das für das jeweilige Modell unterstützt wird:
Modellname |
Feinabstimmung: ext-to-text |
Feinabstimmung: & Text-to-image Image-to-embeddings |
Fortsetzung des Vortrainings:T ext-to-text |
Feinabstimmung: Nachrichtenübermittlung in einer einzigen Runde |
Feinabstimmung: Multi-Turn-Messaging |
Amazon Titan Text G1 - Express |
Ja |
Nein |
Ja |
Nein |
Nein |
Amazon Titan Text G1 - Lite |
Ja |
Nein |
Ja |
Nein |
Nein |
Amazon Titan Text Premier |
Ja |
Nein |
Nein |
Nein |
Nein |
Amazon Titan Image Generator G1 V1 |
Ja |
Ja |
Nein |
Nein |
Nein |
Amazon Titan Multimodal Embeddings G1 G 1 |
Ja |
Ja |
Nein |
Nein |
Nein |
Anthropic Claude 3 Haiku |
Nein |
Nein |
Nein |
Ja |
Ja |
Cohere Command |
Ja |
Nein |
Nein |
Nein |
Nein |
Cohere Command Light |
Ja |
Nein |
Nein |
Nein |
Nein |
Meta Llama 2 13B |
Ja |
Nein |
Nein |
Nein |
Nein |
Meta Llama 2 70B |
Ja |
Nein |
Nein |
Nein |
Nein |
Die Standardkontingente, die für Schulungs- und Validierungsdatensätze gelten, die für die Anpassung verschiedener Modelle verwendet werden, finden Sie unter Summe der Kontingente für Schulungs- und Validierungsdatensätze in Amazon Bedrock-Endpunkten und Kontingenten in der. Allgemeine AWS-Referenz
Bereiten Sie Schulungs- und Validierungsdatensätze für Ihr benutzerdefiniertes Modell vor
Um Trainings- und Validierungsdatensätze für Ihr benutzerdefiniertes Modell vorzubereiten, erstellen Sie .jsonl
Dateien, von denen jede Zeile ein JSON Objekt ist, das einem Datensatz entspricht. Die von Ihnen erstellten Dateien müssen dem Format für die von Ihnen gewählte Anpassungsmethode und das Modell entsprechen, und die darin enthaltenen Datensätze müssen den Größenanforderungen entsprechen.
Das Format hängt von der Anpassungsmethode und der Eingabe- und Ausgabemodalität des Modells ab. Wählen Sie die Registerkarte aus, die der Methode Ihrer Wahl entspricht, und folgen Sie den Schritten:
- Fine-tuning: Text-to-text
-
Bereiten Sie für text-to-text Modelle einen Datensatz mit Training und optionaler Validierung vor. Jedes JSON Objekt ist eine Stichprobe, die prompt
sowohl ein completion
UND-Feld enthält. Verwenden Sie 6 Zeichen pro Token als Näherungswert für die Anzahl der Token. Das Format lautet wie folgt.
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
Das folgende Beispiel ist ein Element für eine Frage-Antwort-Aufgabe:
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
Bereiten Sie für text-to-image image-to-embedding unsere Modelle einen Trainingsdatensatz vor. Validierungsdatensätze werden nicht unterstützt. Jedes JSON Objekt ist ein Beispielimage-ref
, das einen Amazon S3 URI für ein Bild und ein, caption
das eine Aufforderung für das Bild sein könnte, enthält.
Die Bilder müssen im PNG Format JPEG OR vorliegen.
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
Im Folgenden wird ein Beispielelement gezeigt:
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Um Amazon Bedrock Zugriff auf die Bilddateien zu gewähren, fügen Sie eine IAM Richtlinie hinzu, die der Servicerolle Amazon Bedrock Model Customization ähnelt, die Sie eingerichtet haben oder die automatisch für Sie in der Konsole eingerichtet wurde. Berechtigungen für den Zugriff auf Schulungs- und Validierungsdateien sowie für das Schreiben von Ausgabedateien in S3 Die Amazon-S3-Pfade, die Sie im Trainingsdatensatz angeben, müssen sich in Ordnern befinden, die Sie in der Richtlinie angeben.
- Continued Pre-training: Text-to-text
-
Um eine fortlaufende Vorschulung an einem text-to-text Modell durchzuführen, bereiten Sie einen Datensatz mit Schulung und optionaler Validierung vor. Da Continued Pre-Training Daten ohne Bezeichnung beinhaltet, ist jede JSON Zeile eine Stichprobe, die nur ein Feld enthält. input
Verwenden Sie 6 Zeichen pro Token als Näherungswert für die Anzahl der Token. Das Format lautet wie folgt.
{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}
Das Folgende ist ein Beispielelement, das in den Trainingsdaten enthalten sein könnte.
{"input": "AWS stands for Amazon Web Services"}
- Fine-tuning: Single-turn messaging
-
Um ein text-to-text Modell mithilfe des Single-Turn-Messaging-Formats zu optimieren, bereiten Sie einen Trainingsdatensatz und optional einen Validierungsdatensatz vor. Beide Datendateien müssen das Format haben. JSONL Jede Zeile gibt ein vollständiges Datenbeispiel im JSON-Format an; und jedes Datenbeispiel muss auf eine Zeile formatiert werden (entfernen Sie alle '\n' in jeder Stichprobe). Eine Zeile mit mehreren Datenstichproben oder die Aufteilung einer Datenprobe auf mehrere Zeilen funktionieren nicht.
Felder
-
system
(optional): Eine Zeichenfolge, die eine Systemnachricht enthält, die den Kontext für die Konversation festlegt.
-
messages
: Ein Array von Nachrichtenobjekten, die jeweils Folgendes enthalten:
Regeln
-
Das messages
Array muss 2 Nachrichten enthalten
-
Die erste Nachricht muss eine role
des Benutzers enthalten
-
Die letzte Nachricht muss eine role
des Assistenten enthalten
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
Beispiel
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
- Fine-tuning: Multi-turn messaging
-
Um ein text-to-text Modell mithilfe des Multi-Turn-Messaging-Formats zu optimieren, bereiten Sie einen Trainingsdatensatz und optional einen Validierungsdatensatz vor. Beide Datendateien müssen das Format haben. JSONL Jede Zeile gibt ein vollständiges Datenbeispiel im JSON-Format an; und jedes Datenbeispiel muss auf eine Zeile formatiert werden (entfernen Sie alle '\n' in jeder Stichprobe). Eine Zeile mit mehreren Datenstichproben oder die Aufteilung einer Datenprobe auf mehrere Zeilen funktionieren nicht.
Felder
-
system
(optional): Eine Zeichenfolge, die eine Systemnachricht enthält, die den Kontext für die Konversation festlegt.
-
messages
: Ein Array von Nachrichtenobjekten, die jeweils Folgendes enthalten:
Regeln
-
Das messages
Array muss 2 Nachrichten enthalten
-
Die erste Nachricht muss eine role
des Benutzers enthalten
-
Die letzte Nachricht muss eine role
des Assistenten enthalten
-
Nachrichten müssen zwischen assistant
Rollen user
und Rollen wechseln.
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
Beispiel
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
Wählen Sie eine Registerkarte aus, um die Anforderungen für Trainings- und Validierungsdatensätze für ein Modell anzuzeigen:
- Amazon Titan Text Premier
-
Beschreibung |
Maximum (Feinabstimmung) |
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist |
4.096 |
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 2, 3 oder 4 ist |
N/A |
Zeichenkontingent pro Stichprobe im Datensatz |
Token-Kontingent x 6 |
Dateigröße des Trainingsdatensatzes |
1 GB |
Dateigröße des Validierungsdatensatzes |
100 MB |
- Amazon Titan Text G1 - Express
-
Beschreibung |
Maximum (Fortsetzung der Vorschulung) |
Maximum (Feinabstimmung) |
Summe der Ein- und Ausgabetoken, wenn die Batchgröße 1 ist |
4.096 |
4.096 |
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 2, 3 oder 4 ist |
2 048 |
2 048 |
Zeichenkontingent pro Stichprobe im Datensatz |
Token-Kontingent x 6 |
Token-Kontingent x 6 |
Dateigröße des Trainingsdatensatzes |
10 GB |
1 GB |
Dateigröße des Validierungsdatensatzes |
100 MB |
100 MB |
- Amazon Titan Text G1 - Lite
-
Beschreibung |
Maximum (Fortsetzung der Vorschulung) |
Maximum (Feinabstimmung) |
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 1 oder 2 ist |
4.096 |
4.096 |
Summe der Eingabe- und Ausgabetokens, wenn die Batchgröße 3, 4, 5 oder 6 ist |
2 048 |
2 048 |
Zeichenkontingent pro Stichprobe im Datensatz |
Token-Kontingent x 6 |
Token-Kontingent x 6 |
Dateigröße des Trainingsdatensatzes |
10 GB |
1 GB |
Dateigröße des Validierungsdatensatzes |
100 MB |
100 MB |
- Amazon Titan Image Generator G1 V1
-
Beschreibung |
Minimum (Feinabstimmung) |
Maximum (Feinabstimmung) |
Länge der Texteingabeaufforderung in der Trainingsprobe, in Zeichen |
3 |
1,024 |
Datensätze in einem Trainingsdatensatz |
5 |
10.000 |
Größe des Eingabebilds |
0 |
50 MB |
Höhe des Eingabebilds in Pixeln |
512 |
4.096 |
Breite des Eingabebilds in Pixeln |
512 |
4.096 |
Gesamtzahl der Pixel des Eingabebilds |
0 |
12.582.912 |
Seitenverhältnis des Eingabebilds |
1:4 |
4:1 |
- Amazon Titan Multimodal Embeddings G1
-
Beschreibung |
Minimum (Feinabstimmung) |
Maximum (Feinabstimmung) |
Länge der Texteingabeaufforderung in der Trainingsprobe, in Zeichen |
0 |
2.560 |
Aufzeichnungen in einem Trainingsdatensatz |
1.000 |
500 000 |
Größe des Eingabebilds |
0 |
5 MB |
Höhe des Eingabebilds in Pixeln |
128 |
4096 |
Breite des Eingabebilds in Pixeln |
128 |
4096 |
Gesamtzahl der Pixel des Eingabebilds |
0 |
12.528.912 |
Seitenverhältnis des Eingabebilds |
1:4 |
4:1 |
- Cohere Command
-
Beschreibung |
Maximum (Feinabstimmung) |
Geben Sie Tokens ein |
4.096 |
Ausgabetokens |
2 048 |
Zeichenkontingent pro Stichprobe im Datensatz |
Token-Kontingent x 6 |
Datensätze in einem Trainingsdatensatz |
10.000 |
Datensätze in einem Validierungsdatensatz |
1.000 |
- Meta Llama 2
-
Beschreibung |
Maximum (Feinabstimmung) |
Geben Sie Tokens ein |
4.096 |
Ausgabetokens |
2 048 |
Zeichenkontingent pro Stichprobe im Datensatz |
Token-Kontingent x 6 |