Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Amazon Titan Multimodal Embeddings G1 modelo
Los modelos Amazon Titan Foundation se entrenan previamente en conjuntos de datos de gran tamaño, lo que los convierte en modelos potentes y de uso general. Úselos tal cual o personalícelos ajustando los modelos con sus propios datos para una tarea concreta sin anotar grandes volúmenes de datos.
Hay tres tipos de modelos Titan: incrustaciones, generación de texto y generación de imágenes.
Hay dos Titan Multimodal Embeddings G1 modelos. El modelo Titan Multimodal Embeddings G1 traduce las entradas de texto (palabras, frases o, posiblemente, grandes unidades de texto) en representaciones numéricas (conocidas como incrustaciones) que contienen el significado semántico del texto. Si bien este modelo no generará texto, es útil para aplicaciones como la personalización y la búsqueda. Al comparar las incrustaciones, el modelo producirá respuestas más relevantes y contextuales que la combinación de palabras. El modelo Multimodal Embeddings G1 se utiliza para casos de uso como la búsqueda de imágenes por texto, por imagen por similitud o mediante una combinación de texto e imagen. Traduce la imagen o el texto de entrada a una incrustación que contiene el significado semántico de la imagen y el texto en el mismo espacio semántico.
Los modelos Titan Text son generativos LLMs para tareas como el resumen, la generación de texto, la clasificación, la QnA abierta y la extracción de información. También están entrenados en muchos lenguajes de programación diferentes, así como en formatos de texto enriquecido, como tablas, y archivos.csvJSON, entre otros formatos.
Embeddings multimodales Amazon Titan modelo G1 - Modelo de texto
ID del modelo:
amazon.titan-embed-image-v1
Número máximo de identificadores de texto ingresados: 256
Idiomas: inglés
Tamaño máximo de la imagen de entrada: 25 MB
Tamaño del vector de salida: 1024 (predeterminado), 384, 256
Tipos de inferencia: rendimiento aprovisionado y bajo demanda
Casos de uso compatibles: búsqueda, recomendación y personalización.
Titan Text Embeddings V1 toma como entrada una cadena no vacía con un máximo de 8.192 fichas y devuelve una incrustación dimensional de 1.024. La relación entre caracteres y fichas en inglés es de 4,6 caracteres por ficha. Nota sobre los casos de RAG uso: Si bien Titan Text Embeddings V2 puede alojar hasta 8.192 fichas, recomendamos segmentar los documentos en segmentos lógicos (como párrafos o secciones).
Longitud de incrustación
La configuración de una longitud de incrustación personalizada es opcional. La longitud predeterminada de incrustación es de 1024 caracteres, lo que funcionará en la mayoría de los casos de uso. La longitud de incrustación se puede establecer en 256, 384 o 1024 caracteres. Los tamaños de incrustación más grandes crean respuestas más detalladas, pero también aumentan el tiempo computacional. Las longitudes de incrustación más cortas son menos detalladas, pero mejorarán el tiempo de respuesta.
# EmbeddingConfig Shape { 'outputEmbeddingLength':
int
// Optional, One of: [256, 384, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })
Microajuste
Input to the Amazon Titan Multimodal Embeddings G1 El ajuste fino consiste en pares de imagen y texto.
Formatos de imagenPNG:, JPEG
Límite de tamaño de imagen de entrada: 25 MB
Dimensiones de la imagen: mín.: 256 px, máx.: 4.096 px
Número máximo de tokens en el subtítulo: 128
Rango de tamaño del conjunto de datos de entrenamiento: 1000 - 500 000
Rango de tamaño del conjunto de datos de validación: 8 - 50 000
Longitud de los subtítulos en caracteres: 0 - 2560
Máximo total de píxeles por imagen: 2048*2048*3
Relación de aspecto (an/al): mín.: 0,25, máx.: 4
Preparación de conjuntos de datos
Para el conjunto de datos de entrenamiento, crea un .jsonl
archivo con varias JSON líneas. Cada JSON línea contiene tanto una image-ref
como caption
atributos similares al formato de manifiesto aumentado de Sagemaker. Se requiere un conjunto de datos de validación. Los subtítulos automáticos no son compatibles en este momento.
{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}
Tanto para los conjuntos de datos de entrenamiento como para los de validación, creará .jsonl
archivos con varias JSON líneas.
Las rutas de Amazon S3 deben estar en las mismas carpetas en las que proporcionó permisos para que Amazon Bedrock acceda a los datos adjuntando una IAM política a su función de servicio de Amazon Bedrock. Para obtener más información sobre cómo conceder una IAM política para los datos de formación, consulte Otorgar acceso a tus datos de formación a trabajos personalizados.
Hiperparámetros
Estos valores se pueden ajustar para los hiperparámetros del modelo Multimodal Embeddings. Los valores predeterminados funcionarán bien en la mayoría de los casos de uso.
-
Velocidad de aprendizaje (tasa de aprendizaje mínima/máxima); predeterminada: 5,00E-05, mínima: 5,00E-08, máxima: 1
-
Tamaño del lote: tamaño de lote efectivo: predeterminado: 576, mínimo: 256, máximo: 9216
-
Épocas máximas: predeterminado: “auto”, mínimo: 1, máximo: 100