Amazon Titan Multimodal Embeddings G1 modelo - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Amazon Titan Multimodal Embeddings G1 modelo

Los modelos fundacionales de Amazon Titan son conjuntos de datos de gran tamaño entrenados previamente, lo que los convierte en modelos potentes y de uso general. Úselos tal cual o personalícelos afinando los modelos con sus propios datos para una tarea en particular sin anotar grandes volúmenes de datos.

Hay tres tipos de modelos de Titan: incrustaciones, generación de texto y generación de imágenes.

Hay dos Titan Multimodal Embeddings G1 modelos. El modelo Titan Multimodal Embeddings G1 traduce las entradas de texto (palabras, frases o, posiblemente, grandes unidades de texto) en representaciones numéricas (conocidas como incrustaciones) que contienen el significado semántico del texto. Si bien este modelo no genera texto, es útil para aplicaciones como la personalización y la búsqueda. Al comparar las incrustaciones, el modelo producirá respuestas más relevantes y contextuales que la combinación de palabras. El modelo Multimodal Embeddings G1 se utiliza para casos de uso como la búsqueda de imágenes por texto, por imagen para determinar la similitud o mediante una combinación de texto e imagen. Traduce la imagen o el texto de entrada a una incrustación que contiene el significado semántico de la imagen y el texto en el mismo espacio semántico.

Los modelos Titan Text son generativos LLMs para tareas como el resumen, la generación de texto, la clasificación, el QnA abierto y la extracción de información. También están entrenados en muchos lenguajes de programación diferentes, así como en formatos de texto enriquecido, como tablas, y archivos.csvJSON, entre otros formatos.

Embebidas multimodales Amazon Titan modelo G1

  • ID del modelo: amazon.titan-embed-image-v1

  • Número máximo de tokens de texto de entrada: 256

  • Idiomas: inglés

  • Tamaño máximo de la imagen de entrada: 25 MB

  • Tamaño del vector de salida: 1024 (predeterminado), 384, 256

  • Tipos de inferencia: rendimiento aprovisionado y bajo demanda

  • Casos de uso compatibles: búsqueda, recomendaciones y personalización

Titan Text Embeddings versión 1 toma como entrada una cadena no vacía con un máximo de 8192 tokens y devuelve una incrustación dimensional de 1024. La proporción de caracteres por token en inglés es de 4,7 caracteres por token, de media. Nota sobre los casos de RAG uso: Si bien Titan Text Embeddings V2 puede alojar hasta 8.192 fichas, recomendamos segmentar los documentos en segmentos lógicos (como párrafos o secciones).

Longitud de incrustación

La configuración de una longitud de incrustación personalizada es opcional. La longitud predeterminada de incrustación es de 1024 caracteres, lo que funcionará en la mayoría de los casos de uso. La longitud de incrustación se puede establecer en 256, 384 o 1024 caracteres. Los tamaños de incrustación más grandes crean respuestas más detalladas, pero también aumentan el tiempo computacional. Las longitudes de incrustación más cortas son menos detalladas, pero mejorarán el tiempo de respuesta.

# EmbeddingConfig Shape { 'outputEmbeddingLength': int // Optional, One of: [256, 384, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })

Microajuste

  • Input to the Amazon Titan Multimodal Embeddings G1 El ajuste fino consiste en pares de imagen y texto.

  • Formatos de imagenPNG:, JPEG

  • Límite de tamaño de la imagen de entrada: 25 MB

  • Dimensiones de la imagen: mín.: 256 px, máx.: 4096 px

  • Número máximo de tokens en el subtítulo: 128

  • Rango de tamaño del conjunto de datos de entrenamiento: 1000 - 500 000

  • Rango de tamaño del conjunto de datos de validación: 8 - 50 000

  • Longitud de los subtítulos en caracteres: 0 - 2560

  • Máximo total de píxeles por imagen: 2048*2048*3

  • Relación de aspecto (an/al): mín.: 0,25, máx.: 4

Preparación de conjuntos de datos

Para el conjunto de datos de entrenamiento, cree un .jsonl archivo con varias JSON líneas. Cada JSON línea contiene tanto una image-ref como caption atributos similares al formato de manifiesto aumentado de Sagemaker. Se requiere un conjunto de datos de validación. Los subtítulos automáticos no son compatibles en este momento.

{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Tanto para los conjuntos de datos de entrenamiento como para los de validación, creará .jsonl archivos con varias JSON líneas.

Las rutas de Amazon S3 deben estar en las mismas carpetas en las que ha proporcionado permisos para que Amazon Bedrock acceda a los datos adjuntando una IAM política a su función de servicio de Amazon Bedrock. Para obtener más información sobre cómo conceder una IAM política para los datos de formación, consulte Otorgar acceso a tus datos de formación a trabajos personalizados.

Hiperparámetros

Estos valores se pueden ajustar para los hiperparámetros del modelo Multimodal Embeddings. Los valores predeterminados funcionarán bien en la mayoría de los casos de uso.

  • Velocidad de aprendizaje (tasa de aprendizaje mínima/máxima); predeterminada: 5,00E-05, mínima: 5,00E-08, máxima: 1

  • Tamaño del lote: tamaño de lote efectivo: predeterminado: 576, mínimo: 256, máximo: 9216

  • Épocas máximas: predeterminado: “auto”, mínimo: 1, máximo: 100