

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Prepare os dados para ajustar seus modelos
<a name="model-customization-prepare"></a>

Para preparar os conjuntos de dados de treinamento e de validação para o modelo personalizado, crie arquivos `.jsonl`, em que cada linha é um objeto JSON correspondente a um registro. Antes de iniciar um trabalho de personalização de modelo, no mínimo é necessário preparar um conjunto de dados de treinamento. Os arquivos criados devem estar em conformidade com o formato do método de personalização e o modelo escolhido. Os registros internos devem estar de acordo com os requisitos de tamanho, dependendo do modelo. 

Para ter informações sobre requisitos de modelo, consulte [Requisitos do modelo para conjuntos de dados de treinamento e validação](#model-training-validation-requirements). Para ver as cotas padrão que se aplicam aos conjuntos de dados de treinamento e de validação usados para personalizar diferentes modelos, consulte as cotas de **Sum of training and validation records** em [Amazon Bedrock endpoints and quotas](https://docs.aws.amazon.com/general/latest/gr/bedrock.html) no Referência geral da AWS. 

Se um conjunto de dados de validação for compatível e o formato do seu conjunto de dados de treinamento e validação dependerem dos fatores a seguir. 
+ O tipo de tarefa de personalização de ajuste fino.
+ As modalidades de entrada e saída dos dados.

Para ter informações sobre como ajustar modelos do Amazon Nova, consulte [Ajuste dos modelos do Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html).

## Modalidades suportadas para ajuste fino
<a name="model-customization-data-support"></a>

As seções a seguir descrevem os diferentes recursos de ajuste fino suportados por cada modelo, organizados por suas modalidades de entrada e saída. Para ter informações sobre como ajustar modelos do Amazon Nova, consulte [Ajuste dos modelos do Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html).

**Text-to-Text modelos**

Text-to-Text os modelos podem ser ajustados para várias tarefas baseadas em texto, incluindo aplicativos conversacionais e não conversacionais. Para obter informações sobre como preparar dados para Text-to-Text modelos de ajuste fino, consulte. [Prepare dados para modelos de ajuste fino text-to-text](#preparing-text-data) 

Os seguintes modelos não conversacionais são otimizados para determinadas tarefas, como resumo, tradução e resposta a perguntas:
+ Amazon Titan Text G1 - Express
+ Amazon Titan Text G1 - Lite
+ Amazon Titan Text Premier
+ Cohere Command
+ Cohere Command Light
+ Meta Llama 3.1 8B Instruct
+ Meta Llama 3.1 70B Instruct

Os modelos conversacionais a seguir foram projetados para interações de um único turno e de vários turnos. Caso um modelo use a API Converse, seu conjunto de dados de ajuste fino deve seguir o formato de mensagem da API Converse e incluir mensagens do sistema, do usuário e do assistente. Para obter exemplos, consulte [Prepare dados para modelos de ajuste fino text-to-text](#preparing-text-data). Para ter mais informações sobre as operações da API Converse, consulte [Realizar uma conversa com as operações de API Converse](conversation-inference.md).
+ Claude 3 Haiku da Anthropic
+ Llama 3.2 1B Instruct da Meta (formato API Converse)
+ Llama 3.2 3B Instruct da Meta (formato API Converse)
+ Llama 3.2 11B Instruct Vision da Meta (formato API Converse)
+ Llama 3.2 90B Instruct Vision da Meta (formato API Converse)
+ Llama 3.3 70B Vision Instruct da Meta (formato API Converse)

**Text-Image-to-Text & Text-to-Image modelo** s

Os modelos a seguir permitem o uso de ajuste fino para geração de imagens e processamento de imagens de texto. Esses modelos processam ou geram imagens com base na entrada de texto ou geram texto com base nas entradas de texto e de imagem. Para obter informações sobre como preparar dados para ajuste fino Text-Image-to-Text e Text-to-Image modelos de modelos, consulte. [Preparar os dados para ajustar modelos de processamento de imagem e texto](#preparing-image-text-data)
+ Amazon Titan Image Generator G1 V1
+ Llama 3.2 11B Instruct Vision da Meta
+ Llama 3.2 90B Instruct Vision da Meta
+ Llama 3.3 70B Vision Instruct da Meta

**Conversão de imagem em incorporações**

Os modelos a seguir permitem o uso de ajuste fino para tarefas como classificação e recuperação. Esses modelos geram representações numéricas (incorporações) das entradas de imagem. Para obter informações sobre como preparar dados para Image-to-Embeddings modelos de ajuste fino, consulte. [Preparar dados para ajustar modelos de geração e incorporação de imagens](#preparing-image-generation-data)
+ Amazon Titan Multimodal Embeddings G1
+ Amazon Titan Image Generator G1 V1

## Requisitos do modelo para conjuntos de dados de treinamento e validação
<a name="model-training-validation-requirements"></a>

As seções a seguir listam os requisitos dos conjuntos de dados de treinamento e validação de um modelo. Para ter informações sobre restrições de conjunto de dados para modelos do Amazon Nova, consulte [Ajuste dos modelos do Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html).

### Amazon Titan Text Premier
<a name="quotas-cm-titan-premier"></a>


****  

| Description | Máximo (ajuste) | 
| --- | --- | 
| Soma dos tokens de entrada e saída quando o tamanho do lote é 1 | 4.096 | 
| Soma dos tokens de entrada e saída quando o tamanho do lote é 2, 3 ou 4 | N/D | 
| Cota de caracteres por amostra no conjunto de dados | Cota de tokens x 6 (estimada) | 
| Tamanho do arquivo do conjunto de dados de treinamento | 1 GB | 
| Tamanho do arquivo do conjunto de dados de validação | 100 MB | 

### Amazon Titan Text G1 - Express
<a name="quotas-cm-titan-text"></a>


****  

| Description | Máximo (ajuste) | 
| --- | --- | 
| Soma dos tokens de entrada e saída quando o tamanho do lote é 1 | 4.096 | 
| Soma dos tokens de entrada e saída quando o tamanho do lote é 2, 3 ou 4 | 2.048 | 
| Cota de caracteres por amostra no conjunto de dados | Cota de tokens x 6 (estimada) | 
| Tamanho do arquivo do conjunto de dados de treinamento | 1 GB | 
| Tamanho do arquivo do conjunto de dados de validação | 100 MB | 

### Amazon Titan Text G1 - Lite
<a name="quotas-cm-titan-text-lite"></a>


****  

| Description | Máximo (ajuste) | 
| --- | --- | 
| Soma dos tokens de entrada e saída quando o tamanho do lote é 1 ou 2 | 4.096 | 
| Soma dos tokens de entrada e saída quando o tamanho do lote é 3, 4, 5 ou 6 | 2.048 | 
| Cota de caracteres por amostra no conjunto de dados | Cota de tokens x 6 (estimada) | 
| Tamanho do arquivo do conjunto de dados de treinamento | 1 GB | 
| Tamanho do arquivo do conjunto de dados de validação | 100 MB | 

### Amazon Titan Image Generator G1 V1
<a name="quotas-cm-titan-image"></a>


****  

| Description | Mínimo (ajuste) | Máximo (ajuste) | 
| --- | --- | --- | 
| Tamanho do prompt de texto na amostra de treinamento, em caracteres | 3 | 1,024 | 
| Registros em um conjunto de dados de treinamento | 5 | 10.000 | 
| Tamanho da imagem de entrada | 0 | 50 MB | 
| Altura da imagem de entrada em pixels | 512 | 4.096 | 
| Largura da imagem de entrada em pixels | 512 | 4.096 | 
| Total de pixels da imagem de entrada | 0 | 12.582.912 | 
| Proporção da imagem de entrada | 1:4 | 4:1 | 

### Amazon Titan Multimodal Embeddings G1
<a name="quotas-cm-titan-mm-embed"></a>


****  

| Description | Mínimo (ajuste) | Máximo (ajuste) | 
| --- | --- | --- | 
| Tamanho do prompt de texto na amostra de treinamento, em caracteres | 0 | 2.560 | 
| Registros em um conjunto de dados de treinamento | 1.000 | 500.000 | 
| Tamanho da imagem de entrada | 0 | 5 MB | 
| Altura da imagem de entrada em pixels | 128 | 4096 | 
| Largura da imagem de entrada em pixels | 128 | 4096 | 
| Total de pixels da imagem de entrada | 0 | 12.528.912 | 
| Proporção da imagem de entrada | 1:4 | 4:1 | 

### Meta Llama 3.1
<a name="quotas-cm-meta-llama-3-1"></a>


****  

| Description | Mínimo (ajuste) | Máximo (ajuste) | 
| --- | --- | --- | 
| Tokens de entrada | 0 | 16.000 | 
| Tokens de saída | 0 | 16.000 | 
| Cota de caracteres por amostra no conjunto de dados | 0 | Cota de tokens x 6 (estimada) | 
| Soma dos tokens de entrada e saída | 0 | 16.000 | 
| Soma dos registros de treinamento e validação | 100 | 10 mil (ajustável usando cotas de serviço) | 

### Meta Llama 3.2
<a name="quotas-cm-meta-llama-3-2"></a>

Os formatos de imagem compatíveis para o Meta Llama-3.2 11B Vision Instruct e o Meta Llama-3.2 90B Vision Instruct incluem: `gif`, `jpeg`, `png` e `webp`. Para estimar a image-to-token conversão durante o ajuste fino desses modelos, você pode usar esta fórmula como uma aproximação:. `Tokens = min(2, max(Height // 560, 1)) * min(2, max(Width // 560, 1)) * 1601` As imagens são convertidas em 1.601 a 6.404 tokens com base no respectivo tamanho.


****  

| Description | Mínimo (ajuste) | Máximo (ajuste) | 
| --- | --- | --- | 
| Soma dos tokens de entrada e saída | 0 | 16 mil (10 mil para Meta Llama 3.2 90B) | 
| Soma dos registros de treinamento e validação | 100 | 10 mil (ajustável usando cotas de serviço) | 
| Tamanho da imagem de entrada (para modelos Meta Llama 11B and 90B instruct) | 0 | 10 MB | 
| Altura da imagem de entrada em pixels para os modelos Meta Llama 11B and 90B instruct | 10 | 8192 | 
| Largura da imagem de entrada em pixels para os modelos Meta Llama 11B and 90B90B instruct | 10 | 8192 | 

### Meta Llama 3.3
<a name="quotas-cm-meta-llama-3-3"></a>


****  

| Description | Mínimo (ajuste) | Máximo (ajuste) | 
| --- | --- | --- | 
| Soma dos tokens de entrada e saída | 0 | 16000 | 
| Soma dos registros de treinamento e validação | 100 | 10 mil (ajustável usando cotas de serviço) | 

### CohereCommand
<a name="quotas-cm-cohere-command"></a>


****  

| Description | Máximo (ajuste) | 
| --- | --- | 
| Tokens de entrada | 4.096 | 
| Tokens de saída | 2.048 | 
| Cota de caracteres por amostra no conjunto de dados | Cota de tokens x 6 (estimada) | 
| Registros em um conjunto de dados de treinamento | 10.000 | 
| Registros em um conjunto de dados de validação | 1.000 | 

### Claude 3 Haiku da Anthropic
<a name="anthropic-claude-3-haiku"></a>


****  

| Description | Máximo (ajuste) | 
| --- | --- | 
| Número máximo de registros | 32 | 
| Máximo de registros de treinamento | 10.000 | 
| Registros máximos de validação | 1.000 | 
| Total máximo de registros | 10 mil (ajustável usando cotas de serviço) | 
| Máximo de tokens | 32.000 | 
| Tamanho máximo do conjunto de dados de treinamento | 10 GB | 
| Tamanho máximo do conjunto de dados de validação | 1 GB | 

## Prepare dados para modelos de ajuste fino text-to-text
<a name="preparing-text-data"></a>

**nota**  
Para ter informações sobre como ajustar modelos do Amazon Nova, consulte [Ajuste dos modelos do Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html).

Para text-to-text modelos de ajuste fino, cada objeto JSON é uma amostra contendo campos estruturados projetados para orientar o modelo na geração da saída textual desejada com base em um prompt textual fornecido. O formato dos dados varia de acordo com o caso de uso, amplamente categorizado em casos de uso não conversacionais e conversacionais.

------
#### [ Non-conversational tasks ]

As tarefas não conversacionais envolvem a geração de uma única saída para determinada entrada. Cada amostra do conjunto de dados inclui um campo `prompt` contendo o texto de entrada e um campo `completion` com a saída esperada. Esse formato permite uma variedade de tarefas, como resposta a perguntas, resumo, tradução, preenchimento de texto e extração de informações.

Formato de exemplo

```
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "Summarize the article about climate change.", "completion": "Climate change refers to the long-term alteration of temperature and typical weather patterns in a place."}
```

Use aproximadamente seis caracteres por token para estimar o número de tokens para o planejamento do tamanho do conjunto de dados.

------
#### [ Converse API format (Single turn and Multi turn) ]

Para usar a API Converse, você chama as operações `ConverseStream` ou `Converse` para enviar mensagens a um modelo. Para chamar `Converse`, é necessário ter a permissão para a operação `bedrock:InvokeModel`. Para chamar `ConverseStream`, é necessário ter a permissão para a operação `bedrock:InvokeModelWithResponseStream`. Para obter mais informações, consulte [Usar a API Converse](conversation-inference-call.md). Para ter mais informações sobre as operações da API Converse, consulte [Realizar uma conversa com as operações de API Converse](conversation-inference.md).

Formato de exemplo

```
{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [
        {
            "text": "You are a digital assistant with a friendly personality"
        }
    ],
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "text": "What is the capital of Mars?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
                {
                    "text": "Mars does not have a capital. Perhaps it will one day."
                }
            ]
        }
    ]
}
```

------
#### [ Anthropic Claude 3 Haiku: Single-turn conversations ]

As tarefas conversacionais de um único turno envolvem trocas isoladas, nas quais o modelo gera uma resposta com base apenas na entrada atual do usuário, sem considerar o contexto anterior. Cada amostra do conjunto de dados usa uma matriz de mensagens, com perfis alternados de `user` e `assistant`.

Formato

```
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
```

Exemplo

```
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
```

------
#### [ Anthropic Claude 3 Haiku: Multi-turn conversations ]

As tarefas conversacionais de vários turnos envolvem diálogos estendidos em que o modelo deve gerar respostas e, ao mesmo tempo, preservar o contexto das trocas anteriores. Esse formato captura a natureza dinâmica das tarefas interativas, como suporte ao cliente ou discussões complexas.

Formato

```
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
```

Exemplo

```
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}  
```

------

## Preparar os dados para ajustar modelos de processamento de imagem e texto
<a name="preparing-image-text-data"></a>

**nota**  
Para ter informações sobre como ajustar modelos do Amazon Nova, consulte [Ajuste dos modelos do Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html).

Para image-text-to-text modelos de ajuste fino, cada objeto JSON é uma amostra contendo uma conversa estruturada como uma `messages` matriz, consistindo em objetos JSON alternados representando as entradas do usuário e as respostas do assistente. As entradas do usuário podem incluir texto e imagem, enquanto as respostas do assistente são sempre textuais. Essa estrutura permite fluxos de conversação de um e vários turnos e que o modelo gerencie diversas tarefas de forma eficaz. Os formatos de imagem compatíveis para o Meta Llama-3.2 11B Vision Instruct e o Meta Llama-3.2 90B Vision Instruct incluem: `gif`, `jpeg`, `png` e `webp`.

Para permitir que o Amazon Bedrock acesse os arquivos de imagem, adicione uma política do IAM semelhante à de [Permissões para acessar arquivos de treinamento e de validação e gravar os arquivos de saída no S3](model-customization-iam-role.md#model-customization-iam-role-s3) ao perfil de serviço do Amazon Bedrock de personalização de modelo do Amazon Bedrock que você configurou ou que foi configurado automaticamente para você no console. Os caminhos do Amazon S3 que você fornece no conjunto de dados de treinamento devem estar nas pastas que você especifica na política.

**Conversas de um único turno**

Cada objeto JSON para conversas de um único turno consiste em uma mensagem de usuário e uma mensagem de assistente. A mensagem do usuário inclui um campo de perfil definido como *usuário* e um campo de *conteúdo* que contém uma matriz com um campo `type` (*texto* ou *imagem*) que descreve a modalidade de entrada. Para entradas de texto, o campo `content` inclui um campo `text` com a pergunta ou prompt do usuário. Para entradas de imagem, o campo `content` especifica a imagem `format` (por exemplo, *jpeg*, *png*) e a `source` com um `uri` apontando para o local da imagem no Amazon S3. O `uri` representa o caminho exclusivo para a imagem armazenada em um bucket do Amazon S3, normalmente no formato `s3://<bucket-name>/<path-to-file>`. A mensagem do assistente inclui um campo `role` definido como *assistente* e um campo `content` que contém uma matriz com um campo `type` definido como *texto* e um campo `text` que contém a resposta gerada do assistente.

Formato de exemplo

```
{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
    ]
}
```

**Conversas em vários turnos**

Cada objeto JSON para conversas em vários turnos contém uma sequência de mensagens com perfis alternados, em que as mensagens do usuário e as mensagens do assistente são estruturadas de forma consistente para permitir trocas coerentes. As mensagens do usuário incluem um campo `role` definido como *usuário* e um campo `content` que descreve a modalidade de entrada. Para entradas de texto, o campo `content` inclui um campo `text` com a pergunta ou acompanhamento do usuário, enquanto para entradas de imagem, ele especifica o `format` e a respectiva `source` da imagem com o `uri` apontando para o local da imagem no Amazon S3. O `uri` serve como um identificador exclusivo no formato s3://<bucket-name>/< path-to-file > e permite que o modelo acesse a imagem do bucket Amazon S3 designado. A mensagem do assistente inclui um campo `role` definido como *assistente* e um campo `content` que contém uma matriz com um campo `type` definido como *texto* e um campo `text` que contém a resposta gerada do assistente. As conversas podem abranger várias trocas, permitindo que o assistente mantenha o contexto e forneça respostas coerentes o tempo todo.

Formato de exemplo

```
{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        },
        {
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
        
    ]
}
```

## Preparar dados para ajustar modelos de geração e incorporação de imagens
<a name="preparing-image-generation-data"></a>

**nota**  
Os modelos do Amazon Nova têm diferentes requisitos de ajuste fino. Para ajustar esses modelos, siga as instruções em [Ajuste dos modelos do Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html).

Para text-to-image nossos image-to-embedding modelos, prepare um conjunto de dados de treinamento. Os conjuntos de dados de validação não são compatíveis. Cada objeto do JSON é uma amostra que contém uma `image-ref`, o URI do Amazon S3 de uma imagem e um `caption` que pode ser um prompt da imagem.

As imagens devem estar no formato JPEG ou PNG.

```
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
```

Veja a seguir um exemplo de item.

```
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
```

Para permitir que o Amazon Bedrock acesse os arquivos de imagem, adicione uma política do IAM semelhante à de [Permissões para acessar arquivos de treinamento e de validação e gravar os arquivos de saída no S3](model-customization-iam-role.md#model-customization-iam-role-s3) ao perfil de serviço do Amazon Bedrock de personalização de modelo do Amazon Bedrock que você configurou ou que foi configurado automaticamente para você no console. Os caminhos do Amazon S3 que você fornece no conjunto de dados de treinamento devem estar nas pastas que você especifica na política.