Titan Multimodal Embeddings G1Modelo Amazon - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Titan Multimodal Embeddings G1Modelo Amazon

Os modelos da Amazon Titan Foundation são pré-treinados em grandes conjuntos de dados, o que os torna modelos poderosos e de uso geral. Use-os como estão ou personalize-os ajustando os modelos com seus próprios dados para uma tarefa específica sem anotar grandes volumes de dados.

Existem três tipos de modelos Titan: incorporações, geração de texto e geração de imagens.

Existem dois Titan Multimodal Embeddings G1 modelos. O modelo Titan Multimodal Embeddings G1 traduz entradas de texto (palavras, frases ou possivelmente grandes unidades de texto) em representações numéricas (conhecidas como embeddings) que contêm o significado semântico do texto. Embora esse modelo não gere texto, ele é útil para aplicativos como personalização e pesquisa. Ao comparar as incorporações, o modelo produzirá respostas mais relevantes e contextuais do que a correspondência de palavras. O modelo Multimodal Embeddings G1 é usado para casos de uso, como pesquisar imagens por texto, por imagem por semelhança ou por uma combinação de texto e imagem. Ele traduz a imagem ou o texto de entrada em uma incorporação que contém o significado semântico da imagem e do texto no mesmo espaço semântico.

Os modelos Titan Text são generativos LLMs para tarefas como resumo, geração de texto, classificação, QnA aberto e extração de informações. Eles também são treinados em várias linguagens de programação diferentes, bem como em formatos de texto ricoJSON, como tabelas e arquivos.csv, entre outros formatos.

Amazon Titan Multimodal Embeddings modelo G1 - Modelo de texto

  • ID de modelo: amazon.titan-embed-image-v1

  • Máximo de tokens de texto de entrada — 100

  • Idiomas — inglês (mais de 25 idiomas na versão prévia)

  • Tamanho máximo da imagem de entrada: 5 MB

  • Tamanho do vetor de saída: 1.024 (padrão), 384, 256

  • Tipos de inferência: throughput sob demanda e provisionado

  • Casos de uso suportados — pesquisa de documentosRAG, classificação, classificação etc.

O Titan Text Embeddings V1 usa como entrada uma string não vazia com até 8.192 tokens e retorna uma incorporação de 1.024 dimensões. A proporção de caracteres por token em inglês é de 4,6 char/token. Observação sobre casos de RAG uso: embora o Titan Text Embeddings V2 seja capaz de acomodar até 8.192 tokens, recomendamos segmentar documentos em segmentos lógicos (como parágrafos ou seções).

Comprimento de incorporação

Definir um comprimento de incorporação personalizado é opcional. O tamanho padrão de incorporação é de 1.024 caracteres, o que funciona para a maioria dos casos de uso. O comprimento de incorporação pode ser definido como 256, 384 ou 1.024 caracteres. Tamanhos de incorporação maiores geram respostas mais detalhadas, mas também aumentam o tempo de computação. Comprimentos de incorporação mais curtos são menos detalhados, mas melhorarão o tempo de resposta.

# EmbeddingConfig Shape { 'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })

Ajuste fino

  • A entrada para o ajuste Titan Multimodal Embeddings G1 fino da Amazon são pares de imagem e texto.

  • Formatos de imagem:PNG, JPEG

  • Limite de tamanho da imagem de entrada: 5 MB

  • Dimensões da imagem: mín. de 128px, máx. de 4096px

  • Número máximo de tokens na legenda: 100

  • Faixa de tamanho do conjunto de dados de treinamento: 1.000 a 500.000

  • Faixa de tamanho do conjunto de dados de validação: 8 a 50.000

  • Tamanho da legenda em caracteres: 0 a 2.560

  • Máximo do total de pixels por imagem: 2048*2048*3

  • Proporção de aspecto (l/a): mín. de 0,25, máx. de 4

Preparar conjuntos de dados

Para o conjunto de dados de treinamento, crie um .jsonl arquivo com várias JSON linhas. Cada JSON linha contém caption atributos image-ref e semelhantes ao formato do Manifesto Aumentado do Sagemaker. É necessário um conjunto de dados de validação. Ainda não há suporte para legendas automáticas.

{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Para os conjuntos de dados de treinamento e validação, você criará .jsonl arquivos com várias JSON linhas.

Os caminhos do Amazon S3 precisam estar nas mesmas pastas em que você forneceu permissões para o Amazon Bedrock acessar os dados anexando uma política IAM à sua função de serviço do Amazon Bedrock. Para obter mais informações sobre como conceder IAM políticas para dados de treinamento, consulte Conceder acesso a trabalhos personalizados aos seus dados de treinamento.

Hiperparâmetros

Esses valores podem ser ajustados para os hiperparâmetros do modelo Multimodal Embeddings. Os valores padrão funcionarão bem para a maioria dos casos de uso.

  • Taxa de aprendizado (taxa de aprendizado mínima/máxima): padrão de 5,00E-05, mín. de 5,00E-08, máx. de 1

  • Tamanho do lote (tamanho efetivo do lote): padrão de 576, mín. de 256, máx. de 9.216

  • Máximo de épocas: padrão de “auto”, mín. de 1, máx. de 100