Modelos Amazon Titan Text Embeddings - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Modelos Amazon Titan Text Embeddings

Os modelos de texto do Amazon Titan Embeddings incluem o modelo Amazon Titan Text Embeddings v2 e o modelo Titan Text Embeddings G1.

As incorporações de texto representam representações função do Lambda significativas de texto não estruturado, como documentos, parágrafos e frases. Você insere um corpo de texto e a saída é um vetor (1 x n). Você pode usar vetores de incorporação para uma ampla variedade de aplicações.

O modelo Amazon Titan Text Embedding v2 (amazon.titan-embed-text-v2:0) pode receber até 8.192 tokens e gerar um vetor de 1.024 dimensões. O modelo também funciona em mais de 100 idiomas diferentes. O modelo é otimizado para tarefas de recuperação de texto, mas também pode realizar tarefas adicionais, como similaridade semântica e agrupamento. O texto v2 do Amazon Titan Embeddings também suporta documentos longos, no entanto, para tarefas de recuperação, é recomendável segmentar documentos em segmentos lógicos, como parágrafos ou seções.

Os modelos Amazon Titan Embeddings geram uma representação semântica significativa de documentos, parágrafos e frases. O Amazon Titan Text Embeddings usa como entrada um corpo de texto e gera um vetor n-dimensional. O Amazon Titan Text Embeddings é oferecido por meio de invocação de endpoint otimizada para latência [link] para uma pesquisa mais rápida (recomendada durante a etapa de recuperação), bem como trabalhos em lote com taxa de transferência otimizada [link] para uma indexação mais rápida.

O modelo Amazon Titan Embedding Text v2 suporta os seguintes idiomas: inglês, alemão, francês, espanhol, japonês, chinês, hindi, árabe, italiano, português, sueco, coreano, hebraico, tcheco, turco, tagalo, russo, holandês, polonês, tâmil, marata, malaiala, telugu, canarês, vietnamita, indonésio, persa, húngaro, grego moderno, romeno, dinamarquês, tailandês, finlandês, eslovaco, ucraniano, norueguês, búlgaro, catalão, sérvio, croata, lituano, esloveno, estoniano, latim, bengali, letão, malaio, bósnio, albanês, azerbaijano, galego, islandês, georgiano, Macedônio, basco, armênio, nepalês, urdu, cazaque, mongol, bielorrusso, uzbeque, khmer, nynorsk norueguês, gujarati, birmanês, galês, esperanto, cingalês, tártaro, suaíli, africâner, irlandês, panjabi, curdo, quirguiz, tadjique, oriya, laosiano, feroês, maltês, somali, luxemburguês, amárico, occitano, javanês, hausa, pachto, sânscrito, frísio ocidental, malgaxe, assamês, baschir, bretão, waray (Filipinas), turcomano, corso, dhivehi, cebuano, quiniaruanda, haitiano, iídiche, sindi, zulu, gaélico escocês, tibetano, uigur, maori, romanche, xhosa, sudanês, iorubá.

nota

O modelo Amazon Titan Text Embeddings v2 e o modelo Titan Text Embeddings v1 não suportam parâmetros de inferência como ou. maxTokenCount topP

Modelo Amazon Titan Text Embeddings V2

  • ID de modelo: amazon.titan-embed-text-v2:0

  • Máximo de tokens de texto de entrada — 8.192

  • Idiomas — inglês (mais de 100 idiomas na versão prévia)

  • Tamanho máximo da imagem de entrada: 5 MB

  • Tamanho do vetor de saída: 1.024 (padrão), 384, 256

  • Tipos de inferência: throughput sob demanda e provisionado

  • Casos de uso suportados — pesquisa de documentosRAG, classificação, classificação etc.

nota

O Titan Text Embeddings V2 usa como entrada uma string não vazia com até 8.192 tokens. A proporção de caracteres por token em inglês é de 4,7 caracteres por token. Embora o Titan Text Embeddings V1 e o Titan Text Embeddings V2 possam acomodar até 8.192 tokens, é recomendável segmentar documentos em segmentos lógicos (como parágrafos ou seções).

Para usar os modelos de incorporação de texto ou imagem, use a Invoke Model API operação com amazon.titan-embed-text-v1 ou amazon.titan-embed-image-v1 como model Id e recupere o objeto de incorporação na resposta.

Para ver exemplos de cadernos Jupyter:

  1. Faça login no console Amazon Bedrock em https://console.aws.amazon.com/bedrock/ casa.

  2. No menu do lado esquerdo, selecione Modelos de base.

  3. Role para baixo e selecione o Titan Embeddings G1 - Text modelo da Amazon

  4. Na Titan Embeddings G1 - Text guia Amazon (dependendo do modelo escolhido), selecione Exibir exemplo de caderno para ver exemplos de cadernos para incorporação.

Para obter mais informações sobre como preparar um conjunto de dados para treinamento multimodal, consulte Preparing your dataset.