Longitud de incrustación Microajuste Preparación de conjuntos de datos Hiperparámetros

Amazon Titan Multimodal Embeddings G1 modelo

Los modelos fundacionales de Amazon Titan son conjuntos de datos de gran tamaño entrenados previamente, lo que los convierte en modelos potentes y de uso general. Úselos tal cual o personalícelos afinando los modelos con sus propios datos para una tarea en particular sin anotar grandes volúmenes de datos.

Hay tres tipos de modelos de Titan: incrustaciones, generación de texto y generación de imágenes.

Hay dos Titan Multimodal Embeddings G1 modelos. El modelo Titan Multimodal Embeddings G1 traduce las entradas de texto (palabras, frases o, posiblemente, grandes unidades de texto) en representaciones numéricas (conocidas como incrustaciones) que contienen el significado semántico del texto. Si bien este modelo no genera texto, es útil para aplicaciones como la personalización y la búsqueda. Al comparar las incrustaciones, el modelo producirá respuestas más relevantes y contextuales que la combinación de palabras. El modelo Multimodal Embeddings G1 se utiliza para casos de uso como la búsqueda de imágenes por texto, por imagen para determinar la similitud o mediante una combinación de texto e imagen. Traduce la imagen o el texto de entrada a una incrustación que contiene el significado semántico de la imagen y el texto en el mismo espacio semántico.

Los modelos Titan Text son generativos LLMs para tareas como el resumen, la generación de texto, la clasificación, el QnA abierto y la extracción de información. También están entrenados en muchos lenguajes de programación diferentes, así como en formatos de texto enriquecido, como tablas, y archivos.csvJSON, entre otros formatos.

Embebidas multimodales Amazon Titan modelo G1

ID del modelo: amazon.titan-embed-image-v1
Número máximo de tokens de texto de entrada: 256
Idiomas: inglés
Tamaño máximo de la imagen de entrada: 25 MB
Tamaño del vector de salida: 1024 (predeterminado), 384, 256
Tipos de inferencia: rendimiento aprovisionado y bajo demanda
Casos de uso compatibles: búsqueda, recomendaciones y personalización

Titan Text Embeddings versión 1 toma como entrada una cadena no vacía con un máximo de 8192 tokens y devuelve una incrustación dimensional de 1024. La proporción de caracteres por token en inglés es de 4,7 caracteres por token, de media. Nota sobre los casos de RAG uso: Si bien Titan Text Embeddings V2 puede alojar hasta 8.192 fichas, recomendamos segmentar los documentos en segmentos lógicos (como párrafos o secciones).

Longitud de incrustación

La configuración de una longitud de incrustación personalizada es opcional. La longitud predeterminada de incrustación es de 1024 caracteres, lo que funcionará en la mayoría de los casos de uso. La longitud de incrustación se puede establecer en 256, 384 o 1024 caracteres. Los tamaños de incrustación más grandes crean respuestas más detalladas, pero también aumentan el tiempo computacional. Las longitudes de incrustación más cortas son menos detalladas, pero mejorarán el tiempo de respuesta.



    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': int // Optional, One of: [256, 384, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })

Microajuste

Input to the Amazon Titan Multimodal Embeddings G1 El ajuste fino consiste en pares de imagen y texto.
Formatos de imagenPNG:, JPEG
Límite de tamaño de la imagen de entrada: 25 MB
Dimensiones de la imagen: mín.: 256 px, máx.: 4096 px
Número máximo de tokens en el subtítulo: 128
Rango de tamaño del conjunto de datos de entrenamiento: 1000 - 500 000
Rango de tamaño del conjunto de datos de validación: 8 - 50 000
Longitud de los subtítulos en caracteres: 0 - 2560
Máximo total de píxeles por imagen: 2048*2048*3
Relación de aspecto (an/al): mín.: 0,25, máx.: 4

Preparación de conjuntos de datos

Para el conjunto de datos de entrenamiento, cree un .jsonl archivo con varias JSON líneas. Cada JSON línea contiene tanto una image-ref como caption atributos similares al formato de manifiesto aumentado de Sagemaker. Se requiere un conjunto de datos de validación. Los subtítulos automáticos no son compatibles en este momento.



   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Tanto para los conjuntos de datos de entrenamiento como para los de validación, creará .jsonl archivos con varias JSON líneas.

Las rutas de Amazon S3 deben estar en las mismas carpetas en las que ha proporcionado permisos para que Amazon Bedrock acceda a los datos adjuntando una IAM política a su función de servicio de Amazon Bedrock. Para obtener más información sobre cómo conceder una IAM política para los datos de formación, consulte Otorgar acceso a tus datos de formación a trabajos personalizados.

Hiperparámetros

Estos valores se pueden ajustar para los hiperparámetros del modelo Multimodal Embeddings. Los valores predeterminados funcionarán bien en la mayoría de los casos de uso.

Velocidad de aprendizaje (tasa de aprendizaje mínima/máxima); predeterminada: 5,00E-05, mínima: 5,00E-08, máxima: 1
Tamaño del lote: tamaño de lote efectivo: predeterminado: 576, mínimo: 256, máximo: 9216
Épocas máximas: predeterminado: “auto”, mínimo: 1, máximo: 100

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Incrustaciones de texto de Amazon Titan

Descripción general de los modelos del generador de imágenes G1 de Amazon Titan