As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Antes de começar um trabalho de personalização de modelo, é necessário preparar no mínimo um conjunto de dados de treinamento. Se um conjunto de dados de validação for compatível e o formato do seu conjunto de dados de treinamento e validação dependerem dos fatores a seguir.
-
O tipo de trabalho de personalização (destilação, ajuste fino ou pré-treinamento contínuo).
Se você planeja usar a destilação, consulte Pré-requisitos para a destilação do modelo Amazon Bedrock para obter mais informações.
-
As modalidades de entrada e saída dos dados.
Suporte de modelo para destilação, ajuste fino e pré-treinamento contínuo
A tabela a seguir mostra as modalidades de entrada e saída para a destilação, ajuste fino e pré-treinamento contínuo suportadas para cada modelo respectivo:
Nome do modelo | Destilação: Text-to-text | Ajuste fino: T ext-to-text | Ajuste fino: & Text-to-image Image-to-embeddings | Ajuste fino: texto+ e texto+vídeo para texto Image-to-Text | Pré-treinamento contínuo: ext-to-text | Ajuste: mensagens em um único turno | Ajuste: mensagens em vários turnos |
---|---|---|---|---|---|---|---|
Amazon Nova Pro | Sim | Sim | Sim | Sim | Não | Sim | Sim |
Amazon Nova Lite | Sim | Sim | Sim | Sim | Não | Sim | Sim |
Amazon Nova Micro | Sim | Sim | Não | Não | Não | Sim | Sim |
Amazon Titan Text G1 - Express | Não | Sim | Não | Não | Sim | Não | Não |
Amazon Titan Text G1 - Lite | Não | Sim | Não | Não | Sim | Não | Não |
Amazon Titan Text Premier | Não | Sim | Não | Não | Não | Não | Não |
Amazon Titan Image Generator G1 V1 | Não | Sim | Sim | Não | Não | Não | Não |
Amazon Titan Multimodal Embeddings G1 G1 | Não | Sim | Sim | Não | Não | Não | Não |
Anthropic Claude 3 Haiku | Sim | Não | Não | Não | Não | Sim | Sim |
Cohere Command | Não | Sim | Não | Não | Não | Não | Não |
Cohere Command Light | Não | Sim | Não | Não | Não | Não | Não |
Meta Llama 2 13B | Não | Sim | Não | Não | Não | Não | Não |
Meta Llama 2 70B | Não | Sim | Não | Não | Não | Não | Não |
Para ver as cotas padrão que se aplicam aos conjuntos de dados de treinamento e de validação usados para personalizar diferentes modelos, consulte as cotas de Sum of training and validation records em Amazon Bedrock endpoints and quotas no Referência geral da AWS.
Prepare conjuntos de dados para seu modelo personalizado
Para preparar os conjuntos de dados de treinamento e de validação para o modelo personalizado, crie arquivos .jsonl
, cada linha dos quais é um objeto JSON correspondente a um registro. Os arquivos criados devem estar em conformidade com o formato do método de personalização, e o modelo escolhido e os registros neles devem estar em conformidade com os requisitos de tamanho.
O formato depende do método de personalização e da modalidade de entrada e saída do modelo. Escolha a guia do seu método preferido e siga as etapas:
Para Titan, Cohere e Llama text-to-textmodelos, prepare um conjunto de dados de treinamento e validação opcional. Cada objeto JSON é uma amostra que contém um prompt
e um campo completion
. Use seis caracteres por token como uma aproximação do número de tokens. O formato é o seguinte:
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
Veja a seguir um exemplo de item para uma tarefa de pergunta e resposta:
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Amazon Nova os modelos esperam os dados de treinamento em uma estrutura JSON diferente. Esses modelos usam um prompt do sistema "role": "user"
e "role": "assistant"
mensagens para ajustar o modelo. O formato é o seguinte:
// train.jsonl
{
"schemaVersion": "bedrock-conversation-2024",
"system": [
{
"text": "You are a digital assistant with a friendly personality"
}
],
"messages": [
{
"role": "user",
"content": [
{
"text": "What is the capital of Mars?"
}
]
},
{
"role": "assistant",
"content": [
{
"text": "Mars does not have a capital. Perhaps it will one day."
}
]
}
]
}
Para obter mais informações, siga as instruções em Diretrizes para preparar seus dados para o Amazon Nova.
Selecione uma guia para ver os requisitos dos conjuntos de dados de treinamento e de validação de um modelo:
Modelo | Amostras mínimas | Amostras máximas | Duração do contexto |
---|---|---|---|
Amazon Nova Micro | 100 | 20k | 32k |
Amazon Nova Lite | 8 | 20k (10k para documento) | 32k |
Amazon Nova Pro | 100 | 10k | 32k |
Restrições de imagem e vídeo
Tamanho máximo do arquivo de imagem | 10 MB |
Máximo de vídeos | 1 por amostra |
Duração ou duração máxima do vídeo | 90 segundos |
Tamanho máximo do arquivo de vídeo | 50 MB |
Formatos de imagem compatíveis | PNG, JPEG, GIF, WEBP |
Formatos de vídeo compatíveis | MOV, MKV, WEBM MP4 |
Para ver as diretrizes de preparação de dados do Amazon Nova, consulte Diretrizes para preparar seus dados para o Amazon Nova.