Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Préparation des jeux de données
Avant de commencer une tâche de personnalisation d'un modèle, vous devez au minimum préparer un jeu de données d'apprentissage. La prise en charge d'un ensemble de données de validation et le format de votre ensemble de données d'entraînement et de validation dépendent des facteurs suivants.
Support du modèle pour le réglage précis et le maintien du format des données avant l'entraînement
Le tableau suivant présente les détails du format de données de réglage fin et de pré-entraînement continu pris en charge pour chaque modèle respectif :
Nom du modèle |
Réglage précis : T ext-to-text |
Réglage précis : & Text-to-image Image-to-embeddings |
Pré-formation continue : ext-to-text |
Réglage précis : messagerie en un tour |
Réglage précis : messagerie multitour |
Amazon Titan Text G1 - Express |
Oui |
Non |
Oui |
Non |
Non |
Amazon Titan Text G1 - Lite |
Oui |
Non |
Oui |
Non |
Non |
Amazon Titan Text Premier |
Oui |
Non |
Non |
Non |
Non |
Amazon Titan Image Generator G1 V1 |
Oui |
Oui |
Non |
Non |
Non |
Amazon Titan Multimodal Embeddings G1 G1 |
Oui |
Oui |
Non |
Non |
Non |
Anthropic Claude 3 Haiku |
Non |
Non |
Non |
Oui |
Oui |
Cohere Command |
Oui |
Non |
Non |
Non |
Non |
Cohere Command Light |
Oui |
Non |
Non |
Non |
Non |
Meta Llama 2 13B |
Oui |
Non |
Non |
Non |
Non |
Meta Llama 2 70B |
Oui |
Non |
Non |
Non |
Non |
Pour connaître les quotas par défaut qui s'appliquent aux ensembles de données de formation et de validation utilisés pour personnaliser différents modèles, consultez la somme des quotas des enregistrements de formation et de validation dans les points de terminaison Amazon Bedrock et des quotas dans le. Références générales AWS
Préparez des ensembles de données de formation et de validation pour votre modèle personnalisé
Pour préparer des ensembles de données de formation et de validation pour votre modèle personnalisé, vous créez des .jsonl
fichiers dont chaque ligne est un JSON objet correspondant à un enregistrement. Les fichiers que vous créez doivent être conformes au format de la méthode et du modèle de personnalisation que vous choisissez, et les enregistrements qu'ils contiennent doivent être conformes aux exigences de taille.
Le format dépend de la méthode de personnalisation et des modalités d'entrée et de sortie du modèle. Choisissez l'onglet correspondant à votre méthode préférée, puis suivez les étapes suivantes :
- Fine-tuning: Text-to-text
-
Pour les text-to-text modèles, préparez un ensemble de données de formation et de validation facultatif. Chaque JSON objet est un échantillon contenant à la fois un completion
champ prompt
et. Utilisez six caractères par jeton comme approximation du nombre de jetons. Le format est le suivant :
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
Voici un exemple d'élément pour une tâche de question-réponse :
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
Pour nos text-to-image image-to-embedding modèles, préparez un jeu de données d'entraînement. Les ensembles de données de validation ne sont pas pris en charge. Chaque JSON objet est un échantillon contenant unimage-ref
, l'Amazon S3 URI pour une image, et un caption
qui peut être une invite à saisir l'image.
Les images doivent être au PNG format JPEG OR.
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
Voici un exemple d’élément :
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Pour autoriser Amazon Bedrock à accéder aux fichiers image, ajoutez une IAM politique similaire Autorisations d'accès aux fichiers de formation et de validation et d'écriture de fichiers de sortie dans S3 à celle du rôle de service de personnalisation des modèles Amazon Bedrock que vous avez configuré ou qui a été automatiquement configuré pour vous dans la console. Les chemins Amazon S3 que vous fournissez dans le jeu de données d’entraînement doivent se trouver dans des dossiers que vous spécifiez dans la politique.
- Continued Pre-training: Text-to-text
-
Pour effectuer une pré-formation continue sur un text-to-text modèle, préparez un ensemble de données de formation et de validation facultatif. Comme le pré-entraînement continu implique des données non étiquetées, chaque JSON ligne est un échantillon contenant uniquement un input
champ. Utilisez six caractères par jeton comme approximation du nombre de jetons. Le format est le suivant :
{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}
Voici un exemple d’élément qui pourrait figurer dans les données d’entraînement.
{"input": "AWS stands for Amazon Web Services"}
- Fine-tuning: Single-turn messaging
-
Pour affiner un text-to-text modèle à l'aide du format de messagerie à tour unique, préparez un ensemble de données de formation et de validation facultatif. Les deux fichiers de données doivent être au JSONL format. Chaque ligne indique un échantillon de données complet au format json ; et chaque échantillon de données doit être formaté sur une ligne (supprimez tous les «\n» contenus dans chaque échantillon). Une ligne contenant plusieurs échantillons de données ou le fractionnement d'un échantillon de données sur plusieurs lignes ne fonctionnera pas.
Champs
Règles
-
Le messages
tableau doit contenir 2 messages
-
Le premier message doit contenir un nom role
de l'utilisateur
-
Le dernier message doit contenir un message role
de l'assistant
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
Exemple
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
- Fine-tuning: Multi-turn messaging
-
Pour affiner un text-to-text modèle à l'aide du format de messagerie multitour, préparez un ensemble de données de formation et de validation facultatif. Les deux fichiers de données doivent être au JSONL format. Chaque ligne indique un échantillon de données complet au format json ; et chaque échantillon de données doit être formaté sur une ligne (supprimez tous les «\n» contenus dans chaque échantillon). Une ligne contenant plusieurs échantillons de données ou le fractionnement d'un échantillon de données sur plusieurs lignes ne fonctionnera pas.
Champs
Règles
-
Le messages
tableau doit contenir au moins 2 messages
-
Le premier message doit contenir un nom role
de l'utilisateur
-
Le dernier message doit contenir un message role
de l'assistant
-
Les messages doivent alterner entre user
et assistant
rôles.
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
Exemple
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
- Distillation
-
Pour préparer des ensembles de données de formation et de validation pour une tâche de distillation de modèles, voirConditions requises pour la distillation sur le modèle Amazon Bedrock.
Sélectionnez un onglet pour voir les exigences relatives aux ensembles de données d'entraînement et de validation pour un modèle :
- Amazon Titan Text Premier
-
Description |
Maximum (réglage fin) |
Somme des jetons d'entrée et de sortie lorsque la taille du lot est égale à 1 |
4 096 |
Somme des jetons d'entrée et de sortie lorsque la taille du lot est de 2, 3 ou 4 |
N/A |
Quota de caractères par échantillon dans le jeu de données |
Quota de jetons x 6 |
Taille de fichier de jeu de données d'entraînement |
1 Go |
Taille de fichier de jeu de données de validation |
100 Mo |
- Amazon Titan Text G1 - Express
-
Description |
Maximum (pré-entraînement continu) |
Maximum (réglage fin) |
Somme des jetons d'entrée et de sortie lorsque la taille du lot est égale à 1 |
4 096 |
4 096 |
Somme des jetons d'entrée et de sortie lorsque la taille du lot est de 2, 3 ou 4 |
2 048 |
2 048 |
Quota de caractères par échantillon dans le jeu de données |
Quota de jetons x 6 |
Quota de jetons x 6 |
Taille de fichier de jeu de données d’entraînement |
10 Go |
1 Go |
Taille de fichier de jeu de données de validation |
100 Mo |
100 Mo |
- Amazon Titan Text G1 - Lite
-
Description |
Maximum (pré-entraînement continu) |
Maximum (réglage fin) |
Somme des jetons d'entrée et de sortie lorsque la taille du lot est de 1 ou 2 |
4 096 |
4 096 |
Somme des jetons d'entrée et de sortie lorsque la taille du lot est de 3, 4, 5 ou 6 |
2 048 |
2 048 |
Quota de caractères par échantillon dans le jeu de données |
Quota de jetons x 6 |
Quota de jetons x 6 |
Taille de fichier de jeu de données d’entraînement |
10 Go |
1 Go |
Taille de fichier de jeu de données de validation |
100 Mo |
100 Mo |
- Amazon Titan Image Generator G1 V1
-
Description |
Minimum (réglage fin) |
Maximum (réglage fin) |
Longueur du texte demandé dans l'échantillon d'entraînement, en caractères |
3 |
1,024 |
Enregistrements dans un ensemble de données d'entraînement |
5 |
10 000 |
Taille de l'image d'entrée |
0 |
50 Mo |
Hauteur de l'image d'entrée en pixels |
512 |
4 096 |
Largeur de l'image d'entrée en pixels |
512 |
4 096 |
Nombre total de pixels de l'image d'entrée |
0 |
12 582 912 |
Rapport hauteur/largeur de l'image d'entrée |
1:4 |
4:1 |
- Amazon Titan Multimodal Embeddings G1
-
Description |
Minimum (réglage fin) |
Maximum (réglage fin) |
Longueur du texte demandé dans l'échantillon d'entraînement, en caractères |
0 |
2 560 |
Enregistrements dans un ensemble de données d'entraînement |
1 000 |
500 000 |
Taille de l'image d'entrée |
0 |
5 Mo |
Hauteur de l'image d'entrée en pixels |
128 |
4096 |
Largeur de l'image d'entrée en pixels |
128 |
4096 |
Nombre total de pixels de l'image d'entrée |
0 |
12 528 912 |
Rapport hauteur/largeur de l'image d'entrée |
1:4 |
4:1 |
- Cohere Command
-
Description |
Maximum (réglage fin) |
Jetons d'entrée |
4 096 |
Jetons de sortie |
2 048 |
Quota de caractères par échantillon dans le jeu de données |
Quota de jetons x 6 |
Enregistrements dans un ensemble de données d'entraînement |
10 000 |
Enregistrements dans un ensemble de données de validation |
1 000 |
- Meta Llama 2
-
Description |
Maximum (réglage fin) |
Jetons d'entrée |
4 096 |
Jetons de sortie |
2 048 |
Quota de caractères par échantillon dans le jeu de données |
Quota de jetons x 6 |
- Meta Llama 3.1
-
Description |
Maximum (réglage fin) |
Jetons d'entrée |
16,000 |
Jetons de sortie |
16,000 |
Quota de caractères par échantillon dans le jeu de données |
Quota de jetons x 6 |