Preparar os conjuntos de dados - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Preparar os conjuntos de dados

Antes de começar um trabalho de personalização de modelo, é necessário preparar no mínimo um conjunto de dados de treinamento. Se um conjunto de dados de validação for compatível e o formato do seu conjunto de dados de treinamento e validação dependerem dos fatores a seguir.

  • O tipo de trabalho de personalização (ajuste ou pré-treinamento contínuo).

  • As modalidades de entrada e saída dos dados.

Compatibilidade do modelo com o formato de ajuste e de dados de pré-treinamento contínuo

A seguinte tabela mostra detalhes do formato de dados de ajuste e de pré-treinamento contínuo compatível com cada modelo respectivo:

Nome do modelo Ajuste fino: T ext-to-text Ajuste fino: & Text-to-image Image-to-embeddings Ajuste fino: texto+ e texto+vídeo para texto Image-to-Text Pré-treinamento contínuo: ext-to-text Ajuste: mensagens em um único turno Ajuste: mensagens em vários turnos
Amazon Nova Pro Sim Sim Sim Não Sim Sim
Amazon Nova Lite Sim Sim Sim Não Sim Sim
Amazon Nova Micro Sim Não Não Não Sim Sim
Amazon Titan Text G1 - Express Sim Não Não Sim Não Não
Amazon Titan Text G1 - Lite Sim Não Não Sim Não Não
Amazon Titan Text Premier Sim Não Não Não Não Não
Amazon Titan Image Generator G1 V1 Sim Sim Não Não Não Não
Amazon Titan Multimodal Embeddings G1 G1 Sim Sim Não Não Não Não
Anthropic Claude 3 Haiku Não Não Não Não Sim Sim
Cohere Command Sim Não Não Não Não Não
Cohere Command Light Sim Não Não Não Não Não
Meta Llama 2 13B Sim Não Não Não Não Não
Meta Llama 2 70B Sim Não Não Não Não Não

Para ver as cotas padrão que se aplicam aos conjuntos de dados de treinamento e de validação usados para personalizar diferentes modelos, consulte as cotas de Sum of training and validation records em Amazon Bedrock endpoints and quotas no Referência geral da AWS.

Preparar os conjuntos de dados de treinamento e de validação do modelo personalizado

Para preparar os conjuntos de dados de treinamento e de validação para o modelo personalizado, crie arquivos .jsonl, cada linha dos quais é um objeto JSON correspondente a um registro. Os arquivos criados devem estar em conformidade com o formato do método de personalização, e o modelo escolhido e os registros neles devem estar em conformidade com os requisitos de tamanho.

O formato depende do método de personalização e da modalidade de entrada e saída do modelo. Escolha a guia do seu método preferido e siga as etapas:

Fine-tuning: Text-to-text

Para text-to-text modelos, prepare um conjunto de dados de treinamento e validação opcional. Cada objeto JSON é uma amostra que contém um prompt e um campo completion. Use seis caracteres por token como uma aproximação do número de tokens. O formato é o seguinte.

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

Veja a seguir um exemplo de item para uma tarefa de pergunta e resposta:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

Para text-to-image nossos image-to-embedding modelos, prepare um conjunto de dados de treinamento. Os conjuntos de dados de validação não são compatíveis. Cada objeto do JSON é uma amostra que contém uma image-ref, o URI do Amazon S3 de uma imagem e um caption que pode ser um prompt da imagem.

As imagens devem estar no formato JPEG ou PNG.

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

Veja a seguir um exemplo de item.

{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Para permitir que o Amazon Bedrock acesse os arquivos de imagem, adicione uma política do IAM semelhante à de Permissões para acessar arquivos de treinamento e de validação e gravar os arquivos de saída no S3 ao perfil de serviço do Amazon Bedrock de personalização de modelo do Amazon Bedrock que você configurou ou que foi configurado automaticamente para você no console. Os caminhos do Amazon S3 que você fornece no conjunto de dados de treinamento devem estar nas pastas que você especifica na política.

Continued Pre-training: Text-to-text

Para realizar o pré-treinamento contínuo em um text-to-text modelo, prepare um conjunto de dados de treinamento e validação opcional. Como o pré-treinamento contínuo envolve dados não rotulados, cada linha do JSON é uma amostra que contém somente um campo de input. Use seis caracteres por token como uma aproximação do número de tokens. O formato é o seguinte.

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

Veja a seguir um exemplo de item que pode estar nos dados de treinamento.

{"input": "AWS stands for Amazon Web Services"}
Fine-tuning: Single-turn messaging

Para ajustar um text-to-text modelo usando o formato de mensagem de turno único, prepare um conjunto de dados de treinamento e validação opcional. Os dois arquivos de dados devem estar no formato JSONL. Cada linha especifica uma amostra de dados completa no formato json; e cada amostra de dados deve ser formatada em uma linha (remova todo o '\n' em cada amostra). Uma linha com várias amostras de dados ou a divisão de uma amostra de dados em várias linhas não funcionará.

Campos

  • system (opcional): uma string que contém uma mensagem do sistema que define o contexto da conversa.

  • messages: uma matriz de objetos de mensagem, cada um contendo:

    • role: user ou assistant.

    • content: o conteúdo do texto da mensagem

Regras

  • A matriz de messages deve conter duas mensagens

  • A primeira mensagem deve ter um role do usuário

  • A última mensagem deve ter um role do assistente

{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

Exemplo

{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
Fine-tuning: Multi-turn messaging

Para ajustar um text-to-text modelo usando o formato de mensagens de várias voltas, prepare um conjunto de dados de treinamento e validação opcional. Os dois arquivos de dados devem estar no formato JSONL. Cada linha especifica uma amostra de dados completa no formato json; e cada amostra de dados deve ser formatada em uma linha (remova todo o '\n' em cada amostra). Uma linha com várias amostras de dados ou a divisão de uma amostra de dados em várias linhas não funcionará.

Campos

  • system (opcional): uma string que contém uma mensagem do sistema que define o contexto da conversa.

  • messages: uma matriz de objetos de mensagem, cada um contendo:

    • role: user ou assistant.

    • content: o conteúdo do texto da mensagem

Regras

  • A matriz de messages deve conter pelo menos duas mensagens

  • A primeira mensagem deve ter um role do usuário

  • A última mensagem deve ter um role do assistente

  • As mensagens devem alternar entre os perfis de user e de assistant.

{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

Exemplo

{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
Distillation

Para preparar conjuntos de dados de treinamento e validação para um trabalho de destilação modelo, consulte. Pré-requisitos para a destilação do modelo Amazon Bedrock

Selecione uma guia para ver os requisitos dos conjuntos de dados de treinamento e de validação de um modelo:

Amazon Nova
Modelo Amostras mínimas Amostras máximas Duração do contexto
Amazon Nova Micro 100 20k 32k
Amazon Nova Lite 8 20k (10k para documento) 32k
Amazon Nova Pro 100 10k 32k

Restrições de imagem e vídeo

Tamanho máximo do arquivo de imagem 10 MB
Máximo de vídeos 1 por amostra
Duração ou duração máxima do vídeo 90 segundos
Tamanho máximo do arquivo de vídeo 50 MB
Formatos de imagem compatíveis PNG, JPEG, GIF, WEBP
Formatos de vídeo compatíveis MOV, MKV, WEBM MP4
Amazon Titan Text Premier
Descrição Máximo (ajuste)
Soma dos tokens de entrada e saída quando o tamanho do lote é 1 4.096
Soma dos tokens de entrada e saída quando o tamanho do lote é 2, 3 ou 4 N/D
Cota de caracteres por amostra no conjunto de dados Cota de tokens x 6
Tamanho do arquivo do conjunto de dados de treinamento 1 GB
Tamanho do arquivo do conjunto de dados de validação 100 MB
Amazon Titan Text G1 - Express
Descrição Máximo (pré-treinamento contínuo) Máximo (ajuste)
Soma dos tokens de entrada e saída quando o tamanho do lote é 1 4.096 4.096
Soma dos tokens de entrada e saída quando o tamanho do lote é 2, 3 ou 4 2.048 2.048
Cota de caracteres por amostra no conjunto de dados Cota de tokens x 6 Cota de tokens x 6
Tamanho do arquivo do conjunto de dados de treinamento 10 GB 1 GB
Tamanho do arquivo do conjunto de dados de validação 100 MB 100 MB
Amazon Titan Text G1 - Lite
Descrição Máximo (pré-treinamento contínuo) Máximo (ajuste)
Soma dos tokens de entrada e saída quando o tamanho do lote é 1 ou 2 4.096 4.096
Soma dos tokens de entrada e saída quando o tamanho do lote é 3, 4, 5 ou 6 2.048 2.048
Cota de caracteres por amostra no conjunto de dados Cota de tokens x 6 Cota de tokens x 6
Tamanho do arquivo do conjunto de dados de treinamento 10 GB 1 GB
Tamanho do arquivo do conjunto de dados de validação 100 MB 100 MB
Amazon Titan Image Generator G1 V1
Descrição Mínimo (ajuste) Máximo (ajuste)
Tamanho do prompt de texto na amostra de treinamento, em caracteres 3 1,024
Registros em um conjunto de dados de treinamento 5 10.000
Tamanho da imagem de entrada 0 50 MB
Altura da imagem de entrada em pixels 512 4.096
Largura da imagem de entrada em pixels 512 4.096
Total de pixels da imagem de entrada 0 12.582.912
Proporção da imagem de entrada 1:4 4:1
Amazon Titan Multimodal Embeddings G1
Descrição Mínimo (ajuste) Máximo (ajuste)
Tamanho do prompt de texto na amostra de treinamento, em caracteres 0 2.560
Registros em um conjunto de dados de treinamento 1.000 500.000
Tamanho da imagem de entrada 0 5 MB
Altura da imagem de entrada em pixels 128 4096
Largura da imagem de entrada em pixels 128 4096
Total de pixels da imagem de entrada 0 12.528.912
Proporção da imagem de entrada 1:4 4:1
Cohere Command
Descrição Máximo (ajuste)
Tokens de entrada 4.096
Tokens de saída 2.048
Cota de caracteres por amostra no conjunto de dados Cota de tokens x 6
Registros em um conjunto de dados de treinamento 10.000
Registros em um conjunto de dados de validação 1.000
Meta Llama 2
Descrição Máximo (ajuste)
Tokens de entrada 4.096
Tokens de saída 2.048
Cota de caracteres por amostra no conjunto de dados Cota de tokens x 6
Meta Llama 3.1
Descrição Máximo (ajuste)
Tokens de entrada 16.000
Tokens de saída 16.000
Cota de caracteres por amostra no conjunto de dados Cota de tokens x 6

Para ver as diretrizes de preparação de dados do Amazon Nova, consulte Diretrizes para preparar seus dados para o Amazon Nova.