As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Preparar os conjuntos de dados
Antes de começar um trabalho de personalização de modelo, é necessário preparar no mínimo um conjunto de dados de treinamento. Se um conjunto de dados de validação for compatível e o formato do seu conjunto de dados de treinamento e validação dependerem dos fatores a seguir.
Compatibilidade do modelo com o formato de ajuste e de dados de pré-treinamento contínuo
A seguinte tabela mostra detalhes do formato de dados de ajuste e de pré-treinamento contínuo compatível com cada modelo respectivo:
Nome do modelo |
Ajuste fino: T ext-to-text |
Ajuste fino: & Text-to-image Image-to-embeddings |
Ajuste fino: texto+ e texto+vídeo para texto Image-to-Text |
Pré-treinamento contínuo: ext-to-text |
Ajuste: mensagens em um único turno |
Ajuste: mensagens em vários turnos |
Amazon Nova Pro |
Sim |
Sim |
Sim |
Não |
Sim |
Sim |
Amazon Nova Lite |
Sim |
Sim |
Sim |
Não |
Sim |
Sim |
Amazon Nova Micro |
Sim |
Não |
Não |
Não |
Sim |
Sim |
Amazon Titan Text G1 - Express |
Sim |
Não |
Não |
Sim |
Não |
Não |
Amazon Titan Text G1 - Lite |
Sim |
Não |
Não |
Sim |
Não |
Não |
Amazon Titan Text Premier |
Sim |
Não |
Não |
Não |
Não |
Não |
Amazon Titan Image Generator G1 V1 |
Sim |
Sim |
Não |
Não |
Não |
Não |
Amazon Titan Multimodal Embeddings G1 G1 |
Sim |
Sim |
Não |
Não |
Não |
Não |
Anthropic Claude 3 Haiku |
Não |
Não |
Não |
Não |
Sim |
Sim |
Cohere Command |
Sim |
Não |
Não |
Não |
Não |
Não |
Cohere Command Light |
Sim |
Não |
Não |
Não |
Não |
Não |
Meta Llama 2 13B |
Sim |
Não |
Não |
Não |
Não |
Não |
Meta Llama 2 70B |
Sim |
Não |
Não |
Não |
Não |
Não |
Para ver as cotas padrão que se aplicam aos conjuntos de dados de treinamento e de validação usados para personalizar diferentes modelos, consulte as cotas de Sum of training and validation records em Amazon Bedrock endpoints and quotas no Referência geral da AWS.
Preparar os conjuntos de dados de treinamento e de validação do modelo personalizado
Para preparar os conjuntos de dados de treinamento e de validação para o modelo personalizado, crie arquivos .jsonl
, cada linha dos quais é um objeto JSON correspondente a um registro. Os arquivos criados devem estar em conformidade com o formato do método de personalização, e o modelo escolhido e os registros neles devem estar em conformidade com os requisitos de tamanho.
O formato depende do método de personalização e da modalidade de entrada e saída do modelo. Escolha a guia do seu método preferido e siga as etapas:
- Fine-tuning: Text-to-text
-
Para text-to-text modelos, prepare um conjunto de dados de treinamento e validação opcional. Cada objeto JSON é uma amostra que contém um prompt
e um campo completion
. Use seis caracteres por token como uma aproximação do número de tokens. O formato é o seguinte.
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
Veja a seguir um exemplo de item para uma tarefa de pergunta e resposta:
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
Para text-to-image nossos image-to-embedding modelos, prepare um conjunto de dados de treinamento. Os conjuntos de dados de validação não são compatíveis. Cada objeto do JSON é uma amostra que contém uma image-ref
, o URI do Amazon S3 de uma imagem e um caption
que pode ser um prompt da imagem.
As imagens devem estar no formato JPEG ou PNG.
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
Veja a seguir um exemplo de item.
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Para permitir que o Amazon Bedrock acesse os arquivos de imagem, adicione uma política do IAM semelhante à de Permissões para acessar arquivos de treinamento e de validação e gravar os arquivos de saída no S3 ao perfil de serviço do Amazon Bedrock de personalização de modelo do Amazon Bedrock que você configurou ou que foi configurado automaticamente para você no console. Os caminhos do Amazon S3 que você fornece no conjunto de dados de treinamento devem estar nas pastas que você especifica na política.
- Continued Pre-training: Text-to-text
-
Para realizar o pré-treinamento contínuo em um text-to-text modelo, prepare um conjunto de dados de treinamento e validação opcional. Como o pré-treinamento contínuo envolve dados não rotulados, cada linha do JSON é uma amostra que contém somente um campo de input
. Use seis caracteres por token como uma aproximação do número de tokens. O formato é o seguinte.
{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}
Veja a seguir um exemplo de item que pode estar nos dados de treinamento.
{"input": "AWS stands for Amazon Web Services"}
- Fine-tuning: Single-turn messaging
-
Para ajustar um text-to-text modelo usando o formato de mensagem de turno único, prepare um conjunto de dados de treinamento e validação opcional. Os dois arquivos de dados devem estar no formato JSONL. Cada linha especifica uma amostra de dados completa no formato json; e cada amostra de dados deve ser formatada em uma linha (remova todo o '\n' em cada amostra). Uma linha com várias amostras de dados ou a divisão de uma amostra de dados em várias linhas não funcionará.
Campos
-
system
(opcional): uma string que contém uma mensagem do sistema que define o contexto da conversa.
-
messages
: uma matriz de objetos de mensagem, cada um contendo:
Regras
-
A matriz de messages
deve conter duas mensagens
-
A primeira mensagem deve ter um role
do usuário
-
A última mensagem deve ter um role
do assistente
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
Exemplo
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
- Fine-tuning: Multi-turn messaging
-
Para ajustar um text-to-text modelo usando o formato de mensagens de várias voltas, prepare um conjunto de dados de treinamento e validação opcional. Os dois arquivos de dados devem estar no formato JSONL. Cada linha especifica uma amostra de dados completa no formato json; e cada amostra de dados deve ser formatada em uma linha (remova todo o '\n' em cada amostra). Uma linha com várias amostras de dados ou a divisão de uma amostra de dados em várias linhas não funcionará.
Campos
-
system
(opcional): uma string que contém uma mensagem do sistema que define o contexto da conversa.
-
messages
: uma matriz de objetos de mensagem, cada um contendo:
Regras
-
A matriz de messages
deve conter pelo menos duas mensagens
-
A primeira mensagem deve ter um role
do usuário
-
A última mensagem deve ter um role
do assistente
-
As mensagens devem alternar entre os perfis de user
e de assistant
.
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
Exemplo
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
- Distillation
-
Para preparar conjuntos de dados de treinamento e validação para um trabalho de destilação modelo, consulte. Pré-requisitos para a destilação do modelo Amazon Bedrock
Selecione uma guia para ver os requisitos dos conjuntos de dados de treinamento e de validação de um modelo:
- Amazon Nova
-
Modelo |
Amostras mínimas |
Amostras máximas |
Duração do contexto |
Amazon Nova Micro |
100 |
20k |
32k |
Amazon Nova Lite |
8 |
20k (10k para documento) |
32k |
Amazon Nova Pro |
100 |
10k |
32k |
Restrições de imagem e vídeo
Tamanho máximo do arquivo de imagem |
10 MB |
Máximo de vídeos |
1 por amostra |
Duração ou duração máxima do vídeo |
90 segundos |
Tamanho máximo do arquivo de vídeo |
50 MB |
Formatos de imagem compatíveis |
PNG, JPEG, GIF, WEBP |
Formatos de vídeo compatíveis |
MOV, MKV, WEBM MP4 |
- Amazon Titan Text Premier
-
Descrição |
Máximo (ajuste) |
Soma dos tokens de entrada e saída quando o tamanho do lote é 1 |
4.096 |
Soma dos tokens de entrada e saída quando o tamanho do lote é 2, 3 ou 4 |
N/D |
Cota de caracteres por amostra no conjunto de dados |
Cota de tokens x 6 |
Tamanho do arquivo do conjunto de dados de treinamento |
1 GB |
Tamanho do arquivo do conjunto de dados de validação |
100 MB |
- Amazon Titan Text G1 - Express
-
Descrição |
Máximo (pré-treinamento contínuo) |
Máximo (ajuste) |
Soma dos tokens de entrada e saída quando o tamanho do lote é 1 |
4.096 |
4.096 |
Soma dos tokens de entrada e saída quando o tamanho do lote é 2, 3 ou 4 |
2.048 |
2.048 |
Cota de caracteres por amostra no conjunto de dados |
Cota de tokens x 6 |
Cota de tokens x 6 |
Tamanho do arquivo do conjunto de dados de treinamento |
10 GB |
1 GB |
Tamanho do arquivo do conjunto de dados de validação |
100 MB |
100 MB |
- Amazon Titan Text G1 - Lite
-
Descrição |
Máximo (pré-treinamento contínuo) |
Máximo (ajuste) |
Soma dos tokens de entrada e saída quando o tamanho do lote é 1 ou 2 |
4.096 |
4.096 |
Soma dos tokens de entrada e saída quando o tamanho do lote é 3, 4, 5 ou 6 |
2.048 |
2.048 |
Cota de caracteres por amostra no conjunto de dados |
Cota de tokens x 6 |
Cota de tokens x 6 |
Tamanho do arquivo do conjunto de dados de treinamento |
10 GB |
1 GB |
Tamanho do arquivo do conjunto de dados de validação |
100 MB |
100 MB |
- Amazon Titan Image Generator G1 V1
-
Descrição |
Mínimo (ajuste) |
Máximo (ajuste) |
Tamanho do prompt de texto na amostra de treinamento, em caracteres |
3 |
1,024 |
Registros em um conjunto de dados de treinamento |
5 |
10.000 |
Tamanho da imagem de entrada |
0 |
50 MB |
Altura da imagem de entrada em pixels |
512 |
4.096 |
Largura da imagem de entrada em pixels |
512 |
4.096 |
Total de pixels da imagem de entrada |
0 |
12.582.912 |
Proporção da imagem de entrada |
1:4 |
4:1 |
- Amazon Titan Multimodal Embeddings G1
-
Descrição |
Mínimo (ajuste) |
Máximo (ajuste) |
Tamanho do prompt de texto na amostra de treinamento, em caracteres |
0 |
2.560 |
Registros em um conjunto de dados de treinamento |
1.000 |
500.000 |
Tamanho da imagem de entrada |
0 |
5 MB |
Altura da imagem de entrada em pixels |
128 |
4096 |
Largura da imagem de entrada em pixels |
128 |
4096 |
Total de pixels da imagem de entrada |
0 |
12.528.912 |
Proporção da imagem de entrada |
1:4 |
4:1 |
- Cohere Command
-
Descrição |
Máximo (ajuste) |
Tokens de entrada |
4.096 |
Tokens de saída |
2.048 |
Cota de caracteres por amostra no conjunto de dados |
Cota de tokens x 6 |
Registros em um conjunto de dados de treinamento |
10.000 |
Registros em um conjunto de dados de validação |
1.000 |
- Meta Llama 2
-
Descrição |
Máximo (ajuste) |
Tokens de entrada |
4.096 |
Tokens de saída |
2.048 |
Cota de caracteres por amostra no conjunto de dados |
Cota de tokens x 6 |
- Meta Llama 3.1
-
Descrição |
Máximo (ajuste) |
Tokens de entrada |
16.000 |
Tokens de saída |
16.000 |
Cota de caracteres por amostra no conjunto de dados |
Cota de tokens x 6 |
Para ver as diretrizes de preparação de dados do Amazon Nova, consulte Diretrizes para preparar seus dados para o Amazon Nova.