Titan Multimodal Embeddings G1Modelo Amazon - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Titan Multimodal Embeddings G1Modelo Amazon

Los modelos Amazon Titan Foundation se entrenan previamente en conjuntos de datos de gran tamaño, lo que los convierte en modelos potentes y de uso general. Úselos tal cual o personalícelos ajustando los modelos con sus propios datos para una tarea concreta sin anotar grandes volúmenes de datos.

Hay tres tipos de modelos Titan: incrustaciones, generación de texto y generación de imágenes.

Hay dos modelos. Titan Multimodal Embeddings G1 El modelo Titan Multimodal Embeddings G1 traduce las entradas de texto (palabras, frases o, posiblemente, grandes unidades de texto) en representaciones numéricas (conocidas como incrustaciones) que contienen el significado semántico del texto. Si bien este modelo no generará texto, es útil para aplicaciones como la personalización y la búsqueda. Al comparar las incrustaciones, el modelo producirá respuestas más relevantes y contextuales que la combinación de palabras. El modelo Multimodal Embeddings G1 se utiliza para casos de uso como la búsqueda de imágenes por texto, por imagen por similitud o mediante una combinación de texto e imagen. Traduce la imagen o el texto de entrada a una incrustación que contiene el significado semántico de la imagen y el texto en el mismo espacio semántico.

Los modelos Titan Text son generativos LLMs para tareas como el resumen, la generación de texto, la clasificación, la QnA abierta y la extracción de información. También están entrenados en muchos lenguajes de programación diferentes, así como en formatos de texto enriquecido, como tablas, y archivos.csvJSON, entre otros formatos.

Embeddings multimodales Amazon Titan modelo G1 - Modelo de texto

  • ID del modelo: amazon.titan-embed-image-v1

  • Número máximo de fichas de texto introducidas: 100

  • Idiomas: inglés (más de 25 idiomas en la vista previa)

  • Tamaño máximo de la imagen de entrada: 5 MB

  • Tamaño del vector de salida: 1024 (predeterminado), 384, 256

  • Tipos de inferencia: rendimiento aprovisionado y bajo demanda

  • Casos de uso compatibles: búsqueda de documentosRAG, cambio de posición, clasificación, etc.

Titan Text Embeddings V1 toma como entrada una cadena no vacía con un máximo de 8.192 fichas y devuelve una incrustación de 1024 dimensiones. La relación entre caracteres y fichas en inglés es de 4,6 caracteres por ficha. Nota sobre los casos de RAG uso: Si bien Titan Text Embeddings V2 puede alojar hasta 8.192 fichas, recomendamos segmentar los documentos en segmentos lógicos (como párrafos o secciones).

Longitud de incrustación

La configuración de una longitud de incrustación personalizada es opcional. La longitud predeterminada de incrustación es de 1024 caracteres, lo que funcionará en la mayoría de los casos de uso. La longitud de incrustación se puede establecer en 256, 384 o 1024 caracteres. Los tamaños de incrustación más grandes crean respuestas más detalladas, pero también aumentan el tiempo computacional. Las longitudes de incrustación más cortas son menos detalladas, pero mejorarán el tiempo de respuesta.

# EmbeddingConfig Shape { 'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })

Microajuste

  • La entrada al ajuste Titan Multimodal Embeddings G1 fino de Amazon son pares de imagen y texto.

  • PNGFormatos de imagen:, JPEG

  • Límite de tamaño de la imagen de entrada: 5 MB

  • Dimensiones de la imagen: mín.: 128 px, máx.: 4096 px

  • Número máximo de fichas en el subtítulo: 100

  • Rango de tamaño del conjunto de datos de entrenamiento: 1000 - 500 000

  • Rango de tamaño del conjunto de datos de validación: 8 - 50 000

  • Longitud de los subtítulos en caracteres: 0 - 2560

  • Máximo total de píxeles por imagen: 2048*2048*3

  • Relación de aspecto (an/al): mín.: 0,25, máx.: 4

Preparación de conjuntos de datos

Para el conjunto de datos de entrenamiento, crea un .jsonl archivo con varias JSON líneas. Cada JSON línea contiene tanto una image-ref como caption atributos similares al formato de manifiesto aumentado de Sagemaker. Se requiere un conjunto de datos de validación. Los subtítulos automáticos no son compatibles en este momento.

{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Tanto para los conjuntos de datos de entrenamiento como para los de validación, creará .jsonl archivos con varias JSON líneas.

Las rutas de Amazon S3 deben estar en las mismas carpetas en las que ha proporcionado permisos para que Amazon Bedrock acceda a los datos adjuntando una IAM política a su función de servicio de Amazon Bedrock. Para obtener más información sobre cómo conceder una IAM política para los datos de formación, consulte Otorgar acceso a tus datos de formación a trabajos personalizados.

Hiperparámetros

Estos valores se pueden ajustar para los hiperparámetros del modelo Multimodal Embeddings. Los valores predeterminados funcionarán bien en la mayoría de los casos de uso.

  • Velocidad de aprendizaje (tasa de aprendizaje mínima/máxima); predeterminada: 5,00E-05, mínima: 5,00E-08, máxima: 1

  • Tamaño del lote: tamaño de lote efectivo: predeterminado: 576, mínimo: 256, máximo: 9216

  • Épocas máximas: predeterminado: “auto”, mínimo: 1, máximo: 100