Preparar os conjuntos de dados

Modo de foco

Preparar os conjuntos de dados - Amazon Bedrock

Suporte de modelo para destilação, ajuste fino e pré-treinamento contínuo Prepare conjuntos de dados para seu modelo personalizado

Antes de começar um trabalho de personalização de modelo, é necessário preparar no mínimo um conjunto de dados de treinamento. Se um conjunto de dados de validação for compatível e o formato do seu conjunto de dados de treinamento e validação dependerem dos fatores a seguir.

O tipo de trabalho de personalização (destilação, ajuste fino ou pré-treinamento contínuo).

Se você planeja usar a destilação, consulte Pré-requisitos para a destilação do modelo Amazon Bedrock para obter mais informações.
As modalidades de entrada e saída dos dados.

Suporte de modelo para destilação, ajuste fino e pré-treinamento contínuo

A tabela a seguir mostra as modalidades de entrada e saída para a destilação, ajuste fino e pré-treinamento contínuo suportadas para cada modelo respectivo:

Nome do modelo	Destilação: Text-to-text	Ajuste fino: T ext-to-text	Ajuste fino: & Text-to-image Image-to-embeddings	Ajuste fino: texto+ e texto+vídeo para texto Image-to-Text	Pré-treinamento contínuo: ext-to-text	Ajuste: mensagens em um único turno	Ajuste: mensagens em vários turnos
Amazon Nova Pro	Sim	Sim	Sim	Sim	Não	Sim	Sim
Amazon Nova Lite	Sim	Sim	Sim	Sim	Não	Sim	Sim
Amazon Nova Micro	Sim	Sim	Não	Não	Não	Sim	Sim
Amazon Titan Text G1 - Express	Não	Sim	Não	Não	Sim	Não	Não
Amazon Titan Text G1 - Lite	Não	Sim	Não	Não	Sim	Não	Não
Amazon Titan Text Premier	Não	Sim	Não	Não	Não	Não	Não
Amazon Titan Image Generator G1 V1	Não	Sim	Sim	Não	Não	Não	Não
Amazon Titan Multimodal Embeddings G1 G1	Não	Sim	Sim	Não	Não	Não	Não
Anthropic Claude 3 Haiku	Sim	Não	Não	Não	Não	Sim	Sim
Cohere Command	Não	Sim	Não	Não	Não	Não	Não
Cohere Command Light	Não	Sim	Não	Não	Não	Não	Não
Meta Llama 2 13B	Não	Sim	Não	Não	Não	Não	Não
Meta Llama 2 70B	Não	Sim	Não	Não	Não	Não	Não

Para ver as cotas padrão que se aplicam aos conjuntos de dados de treinamento e de validação usados para personalizar diferentes modelos, consulte as cotas de Sum of training and validation records em Amazon Bedrock endpoints and quotas no Referência geral da AWS.

Prepare conjuntos de dados para seu modelo personalizado

Para preparar os conjuntos de dados de treinamento e de validação para o modelo personalizado, crie arquivos .jsonl, cada linha dos quais é um objeto JSON correspondente a um registro. Os arquivos criados devem estar em conformidade com o formato do método de personalização, e o modelo escolhido e os registros neles devem estar em conformidade com os requisitos de tamanho.

O formato depende do método de personalização e da modalidade de entrada e saída do modelo. Escolha a guia do seu método preferido e siga as etapas:

Fine-tuning: Text-to-text

Para Titan, Cohere e Llama text-to-textmodelos, prepare um conjunto de dados de treinamento e validação opcional. Cada objeto JSON é uma amostra que contém um prompt e um campo completion. Use seis caracteres por token como uma aproximação do número de tokens. O formato é o seguinte:


{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}

Veja a seguir um exemplo de item para uma tarefa de pergunta e resposta:


{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}

Amazon Nova os modelos esperam os dados de treinamento em uma estrutura JSON diferente. Esses modelos usam um prompt do sistema "role": "user" e "role": "assistant" mensagens para ajustar o modelo. O formato é o seguinte:


// train.jsonl
{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [
    {
      "text": "You are a digital assistant with a friendly personality"
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "What is the capital of Mars?"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "text": "Mars does not have a capital. Perhaps it will one day."
        }
      ]
    }
  ]
}

Para obter mais informações, siga as instruções em Diretrizes para preparar seus dados para o Amazon Nova.

Fine-tuning: Text-to-image & Image-to-embeddings

nota

Amazon Nova os modelos têm diferentes requisitos de ajuste fino. Para ajustar esses modelos, siga as instruções em Diretrizes para preparar seus dados para o Amazon Nova.

Para text-to-image nossos image-to-embedding modelos, prepare um conjunto de dados de treinamento. Os conjuntos de dados de validação não são compatíveis. Cada objeto do JSON é uma amostra que contém uma image-ref, o URI do Amazon S3 de uma imagem e um caption que pode ser um prompt da imagem.

As imagens devem estar no formato JPEG ou PNG.


{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Veja a seguir um exemplo de item.


{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Para permitir que o Amazon Bedrock acesse os arquivos de imagem, adicione uma política do IAM semelhante à de Permissões para acessar arquivos de treinamento e de validação e gravar os arquivos de saída no S3 ao perfil de serviço do Amazon Bedrock de personalização de modelo do Amazon Bedrock que você configurou ou que foi configurado automaticamente para você no console. Os caminhos do Amazon S3 que você fornece no conjunto de dados de treinamento devem estar nas pastas que você especifica na política.

Continued Pre-training: Text-to-text

Para realizar o pré-treinamento contínuo em um text-to-text modelo, prepare um conjunto de dados de treinamento e validação opcional. Como o pré-treinamento contínuo envolve dados não rotulados, cada linha do JSON é uma amostra que contém somente um campo de input. Use seis caracteres por token como uma aproximação do número de tokens. O formato é o seguinte.


{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}

Veja a seguir um exemplo de item que pode estar nos dados de treinamento.


{"input": "AWS stands for Amazon Web Services"}

Fine-tuning: Single-turn messaging

nota

Amazon Nova os modelos têm diferentes requisitos de ajuste fino. Para ajustar esses modelos, siga as instruções em Diretrizes para preparar seus dados para o Amazon Nova.

Para ajustar um text-to-text modelo usando o formato de mensagem de turno único, prepare um conjunto de dados de treinamento e validação opcional. Os dois arquivos de dados devem estar no formato JSONL. Cada linha especifica uma amostra de dados completa no formato json; e cada amostra de dados deve ser formatada em uma linha (remova todo o '\n' em cada amostra). Uma linha com várias amostras de dados ou a divisão de uma amostra de dados em várias linhas não funcionará.

Campos

system (opcional): uma string que contém uma mensagem do sistema que define o contexto da conversa.
messages: uma matriz de objetos de mensagem, cada um contendo:
- role: user ou assistant.
- content: o conteúdo do texto da mensagem

Regras

A matriz de messages deve conter duas mensagens
A primeira mensagem deve ter um role do usuário
A última mensagem deve ter um role do assistente


{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Exemplo


{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}

Fine-tuning: Multi-turn messaging

nota

Amazon Nova os modelos têm diferentes requisitos de ajuste fino. Para ajustar esses modelos, siga as instruções em Diretrizes para preparar seus dados para o Amazon Nova.

Para ajustar um text-to-text modelo usando o formato de mensagens de várias voltas, prepare um conjunto de dados de treinamento e validação opcional. Os dois arquivos de dados devem estar no formato JSONL. Cada linha especifica uma amostra de dados completa no formato json; e cada amostra de dados deve ser formatada em uma linha (remova todo o '\n' em cada amostra). Uma linha com várias amostras de dados ou a divisão de uma amostra de dados em várias linhas não funcionará.

Campos

system (opcional): uma string que contém uma mensagem do sistema que define o contexto da conversa.
messages: uma matriz de objetos de mensagem, cada um contendo:
- role: user ou assistant.
- content: o conteúdo do texto da mensagem

Regras

A matriz de messages deve conter pelo menos duas mensagens
A primeira mensagem deve ter um role do usuário
A última mensagem deve ter um role do assistente
As mensagens devem alternar entre os perfis de user e de assistant.


{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Exemplo


{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

Distillation

nota

Amazon Nova os modelos têm requisitos diferentes. Para destilar esses modelos, siga as instruções em Destilação Amazon Nova modelos.

Para preparar conjuntos de dados de treinamento e validação para um trabalho de destilação modelo, consulte. Pré-requisitos para a destilação do modelo Amazon Bedrock

anchor anchor anchor anchor anchor anchor


{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}

Veja a seguir um exemplo de item para uma tarefa de pergunta e resposta:


{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}


// train.jsonl
{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [
    {
      "text": "You are a digital assistant with a friendly personality"
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "What is the capital of Mars?"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "text": "Mars does not have a capital. Perhaps it will one day."
        }
      ]
    }
  ]
}

Para obter mais informações, siga as instruções em Diretrizes para preparar seus dados para o Amazon Nova.

Selecione uma guia para ver os requisitos dos conjuntos de dados de treinamento e de validação de um modelo:

Amazon Nova

Modelo	Amostras mínimas	Amostras máximas	Duração do contexto
Amazon Nova Micro	100	20k	32k
Amazon Nova Lite	8	20k (10k para documento)	32k
Amazon Nova Pro	100	10k	32k

Restrições de imagem e vídeo

Tamanho máximo do arquivo de imagem	10 MB
Máximo de vídeos	1 por amostra
Duração ou duração máxima do vídeo	90 segundos
Tamanho máximo do arquivo de vídeo	50 MB
Formatos de imagem compatíveis	PNG, JPEG, GIF, WEBP
Formatos de vídeo compatíveis	MOV, MKV, WEBM MP4

Amazon Titan Text Premier

Descrição	Máximo (ajuste)
Soma dos tokens de entrada e saída quando o tamanho do lote é 1	4.096
Soma dos tokens de entrada e saída quando o tamanho do lote é 2, 3 ou 4	N/D
Cota de caracteres por amostra no conjunto de dados	Cota de tokens x 6
Tamanho do arquivo do conjunto de dados de treinamento	1 GB
Tamanho do arquivo do conjunto de dados de validação	100 MB

Amazon Titan Text G1 - Express

Descrição	Máximo (pré-treinamento contínuo)	Máximo (ajuste)
Soma dos tokens de entrada e saída quando o tamanho do lote é 1	4.096	4.096
Soma dos tokens de entrada e saída quando o tamanho do lote é 2, 3 ou 4	2.048	2.048
Cota de caracteres por amostra no conjunto de dados	Cota de tokens x 6	Cota de tokens x 6
Tamanho do arquivo do conjunto de dados de treinamento	10 GB	1 GB
Tamanho do arquivo do conjunto de dados de validação	100 MB	100 MB

Amazon Titan Text G1 - Lite

Descrição	Máximo (pré-treinamento contínuo)	Máximo (ajuste)
Soma dos tokens de entrada e saída quando o tamanho do lote é 1 ou 2	4.096	4.096
Soma dos tokens de entrada e saída quando o tamanho do lote é 3, 4, 5 ou 6	2.048	2.048
Cota de caracteres por amostra no conjunto de dados	Cota de tokens x 6	Cota de tokens x 6
Tamanho do arquivo do conjunto de dados de treinamento	10 GB	1 GB
Tamanho do arquivo do conjunto de dados de validação	100 MB	100 MB

Amazon Titan Image Generator G1 V1

Descrição	Mínimo (ajuste)	Máximo (ajuste)
Tamanho do prompt de texto na amostra de treinamento, em caracteres	3	1,024
Registros em um conjunto de dados de treinamento	5	10.000
Tamanho da imagem de entrada	0	50 MB
Altura da imagem de entrada em pixels	512	4.096
Largura da imagem de entrada em pixels	512	4.096
Total de pixels da imagem de entrada	0	12.582.912
Proporção da imagem de entrada	1:4	4:1

Amazon Titan Multimodal Embeddings G1

Descrição	Mínimo (ajuste)	Máximo (ajuste)
Tamanho do prompt de texto na amostra de treinamento, em caracteres	0	2.560
Registros em um conjunto de dados de treinamento	1.000	500.000
Tamanho da imagem de entrada	0	5 MB
Altura da imagem de entrada em pixels	128	4096
Largura da imagem de entrada em pixels	128	4096
Total de pixels da imagem de entrada	0	12.528.912
Proporção da imagem de entrada	1:4	4:1

Cohere Command

Descrição	Máximo (ajuste)
Tokens de entrada	4.096
Tokens de saída	2.048
Cota de caracteres por amostra no conjunto de dados	Cota de tokens x 6
Registros em um conjunto de dados de treinamento	10.000
Registros em um conjunto de dados de validação	1.000

Meta Llama 2

Descrição	Máximo (ajuste)
Tokens de entrada	4.096
Tokens de saída	2.048
Cota de caracteres por amostra no conjunto de dados	Cota de tokens x 6

Meta Llama 3.1

Descrição	Máximo (ajuste)
Tokens de entrada	16.000
Tokens de saída	16.000
Cota de caracteres por amostra no conjunto de dados	Cota de tokens x 6

anchor anchor anchor anchor anchor anchor anchor anchor anchor

Modelo	Amostras mínimas	Amostras máximas	Duração do contexto
Amazon Nova Micro	100	20k	32k
Amazon Nova Lite	8	20k (10k para documento)	32k
Amazon Nova Pro	100	10k	32k

Restrições de imagem e vídeo

Tamanho máximo do arquivo de imagem	10 MB
Máximo de vídeos	1 por amostra
Duração ou duração máxima do vídeo	90 segundos
Tamanho máximo do arquivo de vídeo	50 MB
Formatos de imagem compatíveis	PNG, JPEG, GIF, WEBP
Formatos de vídeo compatíveis	MOV, MKV, WEBM MP4

Para ver as diretrizes de preparação de dados do Amazon Nova, consulte Diretrizes para preparar seus dados para o Amazon Nova.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Pré-requisitos para a personalização de modelos

[Opcional] Proteger os trabalhos de personalização de modelos usando uma VPC

Nesta página

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie

Preparar os conjuntos de dados

Suporte de modelo para destilação, ajuste fino e pré-treinamento contínuo

Prepare conjuntos de dados para seu modelo personalizado

nota

nota

nota

nota

Nesta página

Related resources

Esta página foi útil?

Related resources

Próximo tópico:

Tópico anterior:

Precisa de ajuda?