Comprimento de incorporação Ajuste fino Preparar conjuntos de dados Hiperparâmetros

Titan Multimodal Embeddings G1Modelo Amazon

Os modelos da Amazon Titan Foundation são pré-treinados em grandes conjuntos de dados, o que os torna modelos poderosos e de uso geral. Use-os como estão ou personalize-os ajustando os modelos com seus próprios dados para uma tarefa específica sem anotar grandes volumes de dados.

Existem três tipos de modelos Titan: incorporações, geração de texto e geração de imagens.

Existem dois Titan Multimodal Embeddings G1 modelos. O modelo Titan Multimodal Embeddings G1 traduz entradas de texto (palavras, frases ou possivelmente grandes unidades de texto) em representações numéricas (conhecidas como embeddings) que contêm o significado semântico do texto. Embora esse modelo não gere texto, ele é útil para aplicativos como personalização e pesquisa. Ao comparar as incorporações, o modelo produzirá respostas mais relevantes e contextuais do que a correspondência de palavras. O modelo Multimodal Embeddings G1 é usado para casos de uso, como pesquisar imagens por texto, por imagem por semelhança ou por uma combinação de texto e imagem. Ele traduz a imagem ou o texto de entrada em uma incorporação que contém o significado semântico da imagem e do texto no mesmo espaço semântico.

Os modelos Titan Text são generativos LLMs para tarefas como resumo, geração de texto, classificação, QnA aberto e extração de informações. Eles também são treinados em várias linguagens de programação diferentes, bem como em formatos de texto ricoJSON, como tabelas e arquivos.csv, entre outros formatos.

Amazon Titan Multimodal Embeddings modelo G1 - Modelo de texto

ID de modelo: amazon.titan-embed-image-v1
Máximo de tokens de texto de entrada — 100
Idiomas — inglês (mais de 25 idiomas na versão prévia)
Tamanho máximo da imagem de entrada: 5 MB
Tamanho do vetor de saída: 1.024 (padrão), 384, 256
Tipos de inferência: throughput sob demanda e provisionado
Casos de uso suportados — pesquisa de documentosRAG, classificação, classificação etc.

O Titan Text Embeddings V1 usa como entrada uma string não vazia com até 8.192 tokens e retorna uma incorporação de 1.024 dimensões. A proporção de caracteres por token em inglês é de 4,6 char/token. Observação sobre casos de RAG uso: embora o Titan Text Embeddings V2 seja capaz de acomodar até 8.192 tokens, recomendamos segmentar documentos em segmentos lógicos (como parágrafos ou seções).

Comprimento de incorporação

Definir um comprimento de incorporação personalizado é opcional. O tamanho padrão de incorporação é de 1.024 caracteres, o que funciona para a maioria dos casos de uso. O comprimento de incorporação pode ser definido como 256, 384 ou 1.024 caracteres. Tamanhos de incorporação maiores geram respostas mais detalhadas, mas também aumentam o tempo de computação. Comprimentos de incorporação mais curtos são menos detalhados, mas melhorarão o tempo de resposta.



    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })

Ajuste fino

A entrada para o ajuste Titan Multimodal Embeddings G1 fino da Amazon são pares de imagem e texto.
Formatos de imagem:PNG, JPEG
Limite de tamanho da imagem de entrada: 5 MB
Dimensões da imagem: mín. de 128px, máx. de 4096px
Número máximo de tokens na legenda: 100
Faixa de tamanho do conjunto de dados de treinamento: 1.000 a 500.000
Faixa de tamanho do conjunto de dados de validação: 8 a 50.000
Tamanho da legenda em caracteres: 0 a 2.560
Máximo do total de pixels por imagem: 2048*2048*3
Proporção de aspecto (l/a): mín. de 0,25, máx. de 4

Preparar conjuntos de dados

Para o conjunto de dados de treinamento, crie um .jsonl arquivo com várias JSON linhas. Cada JSON linha contém caption atributos image-ref e semelhantes ao formato do Manifesto Aumentado do Sagemaker. É necessário um conjunto de dados de validação. Ainda não há suporte para legendas automáticas.



   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Para os conjuntos de dados de treinamento e validação, você criará .jsonl arquivos com várias JSON linhas.

Os caminhos do Amazon S3 precisam estar nas mesmas pastas em que você forneceu permissões para o Amazon Bedrock acessar os dados anexando uma política IAM à sua função de serviço do Amazon Bedrock. Para obter mais informações sobre como conceder IAM políticas para dados de treinamento, consulte Conceder acesso a trabalhos personalizados aos seus dados de treinamento.

Hiperparâmetros

Esses valores podem ser ajustados para os hiperparâmetros do modelo Multimodal Embeddings. Os valores padrão funcionarão bem para a maioria dos casos de uso.

Taxa de aprendizado (taxa de aprendizado mínima/máxima): padrão de 5,00E-05, mín. de 5,00E-08, máx. de 1
Tamanho do lote (tamanho efetivo do lote): padrão de 576, mín. de 256, máx. de 9.216
Máximo de épocas: padrão de “auto”, mín. de 1, máx. de 100

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Incorporações de texto Amazon Titan

Modelos Amazon Titan Image Generator G1