Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Preparazione dei set di dati
Prima di iniziare un lavoro di personalizzazione del modello, è necessario preparare almeno un set di dati di addestramento. Il supporto di un set di dati di convalida e il formato del set di dati di formazione e convalida dipendono dai seguenti fattori.
Supporto del modello per la messa a punto e il formato dei dati di pre-addestramento continuo
La tabella seguente mostra i dettagli della messa a punto e del formato di dati di pre-allenamento continuo supportato per ogni rispettivo modello:
Nome modello |
Ottimizzazione: ext-to-text |
Ottimizzazione: & Text-to-image Image-to-embeddings |
Pre-allenamento continuo: ext-to-text |
Ottimizzazione: messaggistica a turno singolo |
Ottimizzazione: messaggistica a turni multipli |
Amazon Titan Text G1 - Express |
Sì |
No |
Sì |
No |
No |
Amazon Titan Text G1 - Lite |
Sì |
No |
Sì |
No |
No |
Amazon Titan Text Premier |
Sì |
No |
No |
No |
No |
Amazon Titan Image Generator G1 V1 |
Sì |
Sì |
No |
No |
No |
Amazon Titan Multimodal Embeddings G1 G1 |
Sì |
Sì |
No |
No |
No |
Anthropic Claude 3 Haiku |
No |
No |
No |
Sì |
Sì |
Cohere Command |
Sì |
No |
No |
No |
No |
Cohere Command Light |
Sì |
No |
No |
No |
No |
Meta Llama 2 13 B |
Sì |
No |
No |
No |
No |
Meta Llama 2 70 B |
Sì |
No |
No |
No |
No |
Per visualizzare le quote predefinite applicabili ai set di dati di formazione e convalida utilizzati per personalizzare diversi modelli, consulta la sezione Somma delle quote dei record di formazione e convalida negli endpoint Amazon Bedrock e nelle quote nel. Riferimenti generali di AWS
Prepara set di dati di formazione e convalida per il tuo modello personalizzato
Per preparare set di dati di addestramento e convalida per il modello personalizzato, create .jsonl
dei file, ogni riga dei quali è un JSON oggetto corrispondente a un record. I file creati devono essere conformi al formato del metodo e del modello di personalizzazione scelti e i record in essi contenuti devono essere conformi ai requisiti di dimensione.
Il formato dipende dal metodo di personalizzazione e dalla modalità di input e output del modello. Seleziona la scheda corrispondente al metodo scelto e segui i passaggi:
- Fine-tuning: Text-to-text
-
Per text-to-text i modelli, prepara un set di dati di formazione e convalida opzionale. Ogni JSON oggetto è un esempio contenente sia un campo che un campoprompt
. completion
Usa 6 caratteri per token come approssimazione del numero di token. Il formato è il seguente:
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
Di seguito è riportato un elemento di esempio per un'attività di domanda-risposta:
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
Per i text-to-image nostri image-to-embedding modelli, prepara un set di dati di addestramento. I set di dati di convalida non sono supportati. Ogni JSON oggetto è un esempio contenente un image-ref
Amazon S3 URI per un'immagine e un oggetto caption
che potrebbe essere un prompt per l'immagine.
Le immagini devono essere in JPEG o PNG formato.
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
Di seguito è riportato un esempio:
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Per consentire ad Amazon Bedrock di accedere ai file di immagine, aggiungi una IAM policy simile Autorizzazioni per accedere ai file di formazione e convalida e per scrivere file di output in S3 a quella del ruolo del servizio di personalizzazione del modello Amazon Bedrock che hai impostato o che è stato impostato automaticamente per te nella console. I percorsi Amazon S3 che fornisci nel set di dati di addestramento devono trovarsi nelle cartelle specificate nella policy.
- Continued Pre-training: Text-to-text
-
Per eseguire una formazione preliminare continua su un text-to-text modello, prepara un set di dati di formazione e convalida opzionale. Poiché la formazione continua prevede dati non etichettati, ogni JSON riga è un esempio contenente solo un campo. input
Usa 6 caratteri per token come approssimazione del numero di token. Il formato è il seguente:
{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}
Di seguito è riportato un esempio di elemento che potrebbe essere presente nei dati di addestramento.
{"input": "AWS stands for Amazon Web Services"}
- Fine-tuning: Single-turn messaging
-
Per mettere a punto un text-to-text modello utilizzando il formato di messaggistica a turno singolo, preparate un set di dati di formazione e convalida opzionale. Entrambi i file di dati devono essere nel formato. JSONL Ogni riga specifica un campione di dati completo in formato json; e ogni campione di dati deve essere formattato su 1 riga (rimuovere tutti i '\n' all'interno di ogni campione). Una riga con più campioni di dati o la suddivisione di un campione di dati su più righe non funzioneranno.
Campi
-
system
(opzionale): Una stringa contenente un messaggio di sistema che imposta il contesto per la conversazione.
-
messages
: Una serie di oggetti di messaggio, ciascuno contenente:
Regole
-
L'messages
array deve contenere 2 messaggi
-
Il primo messaggio deve contenere un role
nome dell'utente
-
L'ultimo messaggio deve contenere un messaggio role
dell'assistente
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
Esempio
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
- Fine-tuning: Multi-turn messaging
-
Per mettere a punto un text-to-text modello utilizzando il formato di messaggistica multigiro, preparate un set di dati di formazione e convalida opzionale. Entrambi i file di dati devono essere nel formato. JSONL Ogni riga specifica un campione di dati completo in formato json; e ogni campione di dati deve essere formattato su 1 riga (rimuovere tutti i '\n' all'interno di ogni campione). Una riga con più campioni di dati o la suddivisione di un campione di dati su più righe non funzioneranno.
Campi
-
system
(opzionale): Una stringa contenente un messaggio di sistema che imposta il contesto per la conversazione.
-
messages
: Una serie di oggetti di messaggio, ciascuno contenente:
Regole
-
L'messages
array deve contenere 2 messaggi
-
Il primo messaggio deve contenere un role
nome dell'utente
-
L'ultimo messaggio deve contenere un messaggio role
dell'assistente
-
I messaggi devono alternarsi tra user
e assistant
ruoli.
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
Esempio
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
Seleziona una scheda per visualizzare i requisiti per i set di dati di addestramento e convalida per un modello:
- Amazon Titan Text Premier
-
Descrizione |
Massimo (messa a punto) |
Somma dei token di input e output quando la dimensione del batch è 1 |
4,096 |
Somma dei token di input e output quando la dimensione del batch è 2, 3 o 4 |
N/D |
Quota di caratteri per campione nel set di dati |
Quota di token x 6 |
Dimensione del file del set di dati di addestramento |
1 GB |
Dimensione del file del set di dati di convalida |
100 MB |
- Amazon Titan Text G1 - Express
-
Descrizione |
Massimo (formazione preliminare continua) |
Massimo (messa a punto) |
Somma dei token di input e output quando la dimensione del batch è 1 |
4,096 |
4,096 |
Somma dei token di input e output quando la dimensione del batch è 2, 3 o 4 |
2.048 |
2.048 |
Quota di caratteri per campione nel set di dati |
Quota di token x 6 |
Quota di token x 6 |
Dimensione del file del set di dati di addestramento |
10 GB |
1 GB |
Dimensione del file del set di dati di convalida |
100 MB |
100 MB |
- Amazon Titan Text G1 - Lite
-
Descrizione |
Massimo (formazione preliminare continua) |
Massimo (messa a punto) |
Somma dei token di input e output quando la dimensione del batch è 1 o 2 |
4,096 |
4,096 |
Somma dei token di input e output quando la dimensione del batch è 3, 4, 5 o 6 |
2.048 |
2.048 |
Quota di caratteri per campione nel set di dati |
Quota di token x 6 |
Quota di token x 6 |
Dimensione del file del set di dati di addestramento |
10 GB |
1 GB |
Dimensione del file del set di dati di convalida |
100 MB |
100 MB |
- Amazon Titan Image Generator G1 V1
-
Descrizione |
Minimo (regolazione fine) |
Massimo (regolazione fine) |
Lunghezza del prompt di testo nell'esempio di addestramento, in caratteri |
3 |
1,024 |
Record in un set di dati di addestramento |
5 |
10.000 |
Dimensione dell'immagine di input |
0 |
50 MB |
Altezza dell'immagine di input in pixel |
512 |
4,096 |
Larghezza dell'immagine di input in pixel |
512 |
4,096 |
Pixel totali dell'immagine di input |
0 |
12.582.912 |
Proporzioni dell'immagine in ingresso |
1:4 |
4:1 |
- Amazon Titan Multimodal Embeddings G1
-
Descrizione |
Minimo (messa a punto) |
Massimo (regolazione fine) |
Lunghezza del prompt di testo nell'esempio di addestramento, in caratteri |
0 |
2.560 |
Record in un set di dati di addestramento |
1.000 |
500.000 |
Dimensione dell'immagine di input |
0 |
5 MB |
Altezza dell'immagine di input in pixel |
128 |
4096 |
Larghezza dell'immagine di input in pixel |
128 |
4096 |
Pixel totali dell'immagine di input |
0 |
12.528.912 |
Proporzioni dell'immagine in ingresso |
1:4 |
4:1 |
- Cohere Command
-
Descrizione |
Massimo (regolazione fine) |
Token di input |
4,096 |
Token di output |
2.048 |
Quota di caratteri per campione nel set di dati |
Quota di token x 6 |
Record in un set di dati di addestramento |
10.000 |
Record in un set di dati di convalida |
1.000 |
- Meta Llama 2
-
Descrizione |
Massimo (regolazione fine) |
Token di input |
4,096 |
Token di output |
2.048 |
Quota di caratteri per campione nel set di dati |
Quota di token x 6 |