- Fine-tuning: Text-to-text
-
Pour affiner un text-to-text modèle, préparez un ensemble de données d'apprentissage et de validation facultatif en créant un JSONL fichier comportant plusieurs JSON lignes. Chaque JSON ligne est un échantillon contenant à la fois un completion
champ prompt
et. Utilisez six caractères par jeton comme approximation du nombre de jetons. Le format est le suivant :
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
Voici un exemple d'élément pour une tâche de question-réponse :
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
Pour affiner un image-to-embedding modèle text-to-image OR, préparez un jeu de données d'apprentissage en créant un JSONL fichier comportant plusieurs JSON lignes. Les ensembles de données de validation ne sont pas pris en charge. Chaque JSON ligne est un échantillon contenant unimage-ref
, l'Amazon S3 URI pour une image, et un caption
qui peut être une invite à saisir l'image.
Les images doivent être au PNG format JPEG OR.
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
Voici un exemple d’élément :
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Pour autoriser Amazon Bedrock à accéder aux fichiers image, ajoutez une IAM politique similaire Autorisations d'accès aux fichiers de formation et de validation et d'écriture de fichiers de sortie dans S3 à celle du rôle de service de personnalisation des modèles Amazon Bedrock que vous avez configuré ou qui a été automatiquement configuré pour vous dans la console. Les chemins Amazon S3 que vous fournissez dans le jeu de données d’entraînement doivent se trouver dans des dossiers que vous spécifiez dans la politique.
- Continued Pre-training: Text-to-text
-
Pour effectuer une pré-formation continue sur un text-to-text modèle, préparez un ensemble de données de formation et de validation facultatif en créant un JSONL fichier de plusieurs JSON lignes. Comme le pré-entraînement continu implique des données non étiquetées, chaque JSON ligne est un échantillon contenant uniquement un input
champ. Utilisez six caractères par jeton comme approximation du nombre de jetons. Le format est le suivant :
{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}
Voici un exemple d’élément qui pourrait figurer dans les données d’entraînement.
{"input": "AWS stands for Amazon Web Services"}
- Fine-tuning: Single-turn messaging
-
Pour affiner un text-to-text modèle à l'aide du format de messagerie à tour unique, préparez un ensemble de données de formation et de validation facultatif en créant un JSON fichier de plusieurs JSON lignes. Les deux fichiers de données doivent être au JSONL format. Chaque ligne indique un échantillon de données complet au format json ; et chaque échantillon de données doit être formaté sur une ligne (supprimez tous les «\n» contenus dans chaque échantillon). Une ligne contenant plusieurs échantillons de données ou le fractionnement d'un échantillon de données sur plusieurs lignes ne fonctionnera pas.
Champs
Règles
-
Le messages
tableau doit contenir 2 messages
-
Le premier message doit contenir un nom role
de l'utilisateur
-
Le dernier message doit contenir un message role
de l'assistant
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
Exemple
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
- Fine-tuning: Multi-turn messaging
-
Pour affiner un text-to-text modèle à l'aide du format de messagerie multitour, préparez un ensemble de données de formation et de validation facultatif en créant un JSONL fichier comportant plusieurs JSON lignes. Les deux fichiers de données doivent être au JSONL format. Chaque ligne indique un échantillon de données complet au format json ; et chaque échantillon de données doit être formaté sur une ligne (supprimez tous les «\n» contenus dans chaque échantillon). Une ligne contenant plusieurs échantillons de données ou le fractionnement d'un échantillon de données sur plusieurs lignes ne fonctionnera pas.
Champs
Règles
-
Le messages
tableau doit contenir 2 messages
-
Le premier message doit contenir un nom role
de l'utilisateur
-
Le dernier message doit contenir un message role
de l'assistant
-
Les messages doivent alterner entre user
et assistant
rôles.
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
Exemple
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}