Modelos de Amazon Titan Text Embeddings - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Modelos de Amazon Titan Text Embeddings

Los modelos de texto de Amazon Titan Embeddings incluyen Amazon Text Embeddings v2 y el modelo Titan Titan Text Embeddings G1.

Las incrustaciones de texto representan representaciones vectoriales significativas de texto no estructurado, como documentos, párrafos y oraciones. Se introduce un cuerpo de texto y el resultado es un vector (1 x n). Puede utilizar vectores de incrustación en una amplia variedad de aplicaciones.

El modelo Amazon Titan Text Embedding v2 (amazon.titan-embed-text-v2:0) puede admitir hasta 8192 fichas y genera un vector de 1024 dimensiones. El modelo también funciona en más de 100 idiomas diferentes. El modelo está optimizado para tareas de recuperación de texto, pero también puede realizar tareas adicionales, como la similitud semántica y la agrupación en clústeres. Amazon Titan Embeddings text v2 también admite documentos largos; sin embargo, para las tareas de recuperación, se recomienda segmentar los documentos en segmentos lógicos, como párrafos o secciones.

Los modelos Amazon Titan Embeddings generan una representación semántica significativa de documentos, párrafos y oraciones. Amazon Titan Text Embeddings toma como entrada un cuerpo de texto y genera un vector n-dimensional. Amazon Titan Text Embeddings se ofrece mediante la invocación de punto final optimizada para la latencia [enlace] para una búsqueda más rápida (se recomienda durante el paso de recuperación), así como mediante trabajos por lotes optimizados para el rendimiento [enlace] para una indexación más rápida.

El modelo Amazon Titan Embedding Text v2 admite los siguientes idiomas: inglés, alemán, francés, español, japonés, chino, hindi, árabe, italiano, portugués, sueco, coreano, hebreo, checo, turco, tagalo, ruso, neerlandés, polaco, tamil, marathi, malayalam, telugu, canarés, vietnamita, indonesio, persa, húngaro, griego moderno, rumano, danés, tailandés, finés, eslovaco, ucraniano, noruego, búlgaro, catalán, serbio, croata, lituano, esloveno, estonio, latín, bengalí, letón, malayo, bosnio, albanés, azerbaiyano, gallego, islandés, georgiano, macedonio, vasco, armenio, nepalí, urdú, kazajo, mongol, bielorruso, uzbeko, jemer, noruego nynorsk, guyaratí, birmano, galés, esperanto, cingalés, tártaro, swahili, afrikáans, irlandés, panyabí, kurdo, kirguís, tayiko, oriya, laosiano, feroés, maltés, somalí, luxemburgués burgués, amárico, occitano, javanés, hausa, pastún, sánscrito, frisón occidental, malgache, asamés, baskir, bretón, waray (Filipinas), turcomano, corso, dhivehi, cebuano, kinyarwanda, haitiano, yiddish, sindhi, zulú, gaélico escocés, tibetano, uigur, Maorí, romanche, xhosa, sundanés y yoruba.

nota

Los modelos Amazon Titan Text Embeddings v2 y Titan Text Embeddings v1 no admiten parámetros de inferencia como o. maxTokenCount topP

Amazon Titan Text Embeddings, modelo V2

  • ID del modelo: amazon.titan-embed-text-v2:0

  • Número máximo de fichas de texto introducidas: 8.192

  • Idiomas: inglés (más de 100 idiomas en la vista previa)

  • Tamaño máximo de la imagen de entrada: 5 MB

  • Tamaño del vector de salida: 1024 (predeterminado), 384, 256

  • Tipos de inferencia: rendimiento aprovisionado y bajo demanda

  • Casos de uso compatibles: búsqueda de documentosRAG, cambio de posición, clasificación, etc.

nota

Titan Text Embeddings V2 toma como entrada una cadena no vacía con un máximo de 8.192 fichas. La proporción de caracteres por token en inglés es de 4,7 caracteres por token. Si bien Titan Text Embeddings V1 y Titan Text Embeddings V2 admiten hasta 8.192 fichas, se recomienda segmentar los documentos en segmentos lógicos (como párrafos o secciones).

Para utilizar los modelos de incrustación de texto o imagen, utilice la Invoke Model API operación con amazon.titan-embed-text-v1 o amazon.titan-embed-image-v1 como y recupere el objeto incrustado en la respuesta. model Id

Para ver ejemplos de cuadernos de Jupyter:

  1. Inicia sesión en la consola Amazon Bedrock de https://console.aws.amazon.com/bedrock/ tu casa.

  2. En el menú de la izquierda, seleccione Modelos base.

  3. Desplázate hacia abajo y selecciona el Titan Embeddings G1 - Text modelo de Amazon

  4. En la Titan Embeddings G1 - Text pestaña Amazon (según el modelo que elijas), selecciona Ver libreta de ejemplo para ver libretas de ejemplo para incrustar.

Para obtener más información sobre cómo preparar el conjunto de datos para el entrenamiento multimodal, consulte Preparación de su conjunto de datos.