Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Modelos de Amazon Titan Text Embeddings
Amazon Titan Los modelos de incrustaciones incluyen Amazon Titan Los modelos Text Embeddings v2 y Titan Text Embeddings G1.
Las incrustaciones de texto representan representaciones vectoriales significativas de texto no estructurado, como documentos, párrafos y oraciones. Se introduce un cuerpo de texto y el resultado es un vector (1 x n). Puede utilizar vectores de incrustación en una amplia variedad de aplicaciones.
El modelo Amazon Titan Text Embedding versión 2 (amazon.titan-embed-text-v2:0
) puede ingerir hasta 8192 tokens y generar un vector de 1024 dimensiones. El modelo también funciona en más de 100 idiomas diferentes. El modelo está optimizado para las tareas de recuperación de texto, pero también se puede optimizar para tareas adicionales, como la similitud semántica y la agrupación en clústeres.
Los modelos Amazon Titan Embeddings generan una representación semántica significativa de documentos, párrafos y oraciones. Amazon Titan Text Embeddings toma como entrada un cuerpo de texto y genera un vector (1 x n). Amazon Titan Text Embeddings se ofrece mediante la invocación de puntos de conexión optimizada para latencia para buscar de forma más rápida (se recomienda durante el paso de recuperación), así como mediante trabajos por lotes con rendimiento optimizado para una indexación más rápida. Amazon Titan Text Embeddings v2 admite documentos largos; sin embargo, para las tareas de recuperación, se recomienda segmentar los documentos en segmentos lógicos, como párrafos o secciones.
El modelo Amazon Titan Embedding Text versión 2 admite los siguientes idiomas: inglés, alemán, francés, español, japonés, chino, hindi, árabe, italiano, portugués, sueco, coreano, hebreo, checo, turco, tagalo, ruso, neerlandés, polaco, tamil, marathi, malayalam, telugu, canarés, vietnamita, indonesio, persa, húngaro, griego moderno, rumano, danés, tailandés, finés, eslovaco, ucraniano, noruego, búlgaro, catalán, serbio, croata, lituano, esloveno, estonio, latín, bengalí, letón, malayo, bosnio, albanés, azerbaiyano, gallego, islandés, georgiano, macedonio, vasco, armenio, nepalí, urdú, kazajo, mongol, bielorruso, uzbeko, jemer, noruego nynorsk, guyaratí, birmano, galés, esperanto, cingalés, tártaro, swahili, afrikáans, irlandés, panyabí, kurdo, kirguís, tayiko, oriya, laosiano, feroés, maltés, somalí, luxemburgués, amárico, occitano, javanés, hausa, pastún, sánscrito, frisón occidental, malgache, asamés, baskir, bretón, waray (Filipinas), turcomano, corso, dhivehi, cebuano, kinyarwanda, haitiano, yiddish, sindhi, zulú, gaélico escocés, tibetano, uigur, maorí, romanche, xhosa, sundanés y yoruba.
nota
Los modelos Amazon Titan Text Embeddings v2 y Titan Text Embeddings v1 no admiten parámetros de inferencia como o. maxTokenCount
topP
Modelo Amazon Titan Text Embeddings versión 2
ID del modelo:
amazon.titan-embed-text-v2:0
Número máximo de tokens de texto de entrada: 8192
Idiomas: inglés (más de 100 idiomas adicionales en versión preliminar)
Tamaño del vector de salida: 1024 (predeterminado), 384, 256
Tipos de inferencia: rendimiento aprovisionado y bajo demanda
Casos de uso compatibles: búsqueda de documentosRAG, cambio de clasificación, clasificación, etc.
nota
Titan Text Embeddings versión 2 toma como entrada una cadena no vacía con un máximo de 8192 tokens. La proporción de caracteres por token en inglés es de 4,7 caracteres por token, de media. Si bien Titan Text Embeddings versión 1 y Titan Text Embeddings versión 2 pueden alojar hasta 8192 tokens, se recomienda segmentar los documentos en segmentos lógicos (como párrafos o secciones).
Para utilizar los modelos de incrustación de texto o imagen, utilice la Invoke Model
API operación con amazon.titan-embed-text-v2
o amazon.titan-embed-image-v2
como tal model Id
y recupere el objeto incrustado en la respuesta.
Para ver ejemplos de cuadernos de Jupyter:
-
Inicia sesión en la consola Amazon Bedrock de https://console.aws.amazon.com/bedrock/ tu casa.
-
Desplázate hacia abajo y selecciona Amazon Titan Text Embeddings V2Modelo de
-
En Amazon Titan Text Embeddings V2En la pestaña (según el modelo que elijas), selecciona Ver cuaderno de ejemplo para ver ejemplos de cuadernos para incrustar.
Para obtener más información sobre cómo preparar el conjunto de datos para el entrenamiento multimodal, consulte Preparación de su conjunto de datos.