Modelos Amazon Titan Image Generator G1
Amazon Titan Image Generator G1 es un modelo de generación de imágenes. Tiene dos versiones: v1 y v2.
Amazon Titan Image Generator v1 permite a los usuarios generar y editar imágenes de formas muy versátiles. Los usuarios pueden crear imágenes que coincidan con sus descripciones basadas en texto simplemente introduciendo peticiones en lenguaje natural. Además, pueden cargar y editar las imágenes existentes, lo que incluye aplicar peticiones basadas en texto sin necesidad de usar una máscara o editar partes específicas de una imagen con una máscara de imagen. El modelo también admite el outpainting, que amplía los límites de una imagen, y el inpainting, que rellena las áreas que faltan. Además, ofrece la posibilidad de generar variaciones de una imagen a partir de una petición de texto opcional, así como opciones de personalización instantáneas que permiten a los usuarios transferir estilos con imágenes de referencia o combinar estilos a partir de múltiples referencias, todo ello sin necesidad de afinar.
Titan Image Generator v2 es compatible con todas las características existentes de Titan Image Generator v1 y añade varias características nuevas. Permite a los usuarios aprovechar las imágenes de referencia para guiar la generación de imágenes, de forma que la imagen de salida se alinee con el diseño y la composición de la imagen de referencia sin dejar de seguir las peticiones textuales. También incluye una característica de eliminación automática del fondo, que permite eliminar los fondos de las imágenes que contienen varios objetos sin necesidad de intervención del usuario. El modelo proporciona un control preciso sobre la paleta de colores de las imágenes generadas, lo que permite a los usuarios preservar la identidad visual de la marca sin necesidad de realizar afinaciones adicionales. Además, la característica de coherencia del tema permite a los usuarios afinar el modelo con imágenes de referencia para conservar el sujeto elegido (por ejemplo, una mascota, un zapato o un bolso) en las imágenes generadas. Este completo conjunto de características permite a los usuarios dar rienda suelta a su potencial creativo y dar vida a sus imaginativas visiones.
Para obtener más información sobre las directrices de ingeniería de peticiones de Amazon Titan Image Generator G1, consulte las Prácticas recomendadas de ingeniería de peticiones de Amazon Titan Image Generator
Para seguir respaldando las prácticas recomendadas en el uso responsable de la IA, los modelos fundacionales (FM) de Titan están diseñados para detectar y eliminar el contenido dañino de los datos, rechazar el contenido inapropiado en las entradas de los usuarios y filtrar los resultados de los modelos que contengan contenido inapropiado (como la incitación al odio, las palabras malsonantes y la violencia). El FM Titan Image Generator añade una marca de agua invisible y metadatos C2PA
Puede utilizar la característica de detección de marcas de agua de la consola de Amazon Bedrock o llamar a la API de detección de marcas de agua de Amazon Bedrock (versión preliminar) para comprobar si una imagen contiene marcas de agua de Titan Image Generator. También puedes usar sitios como Content Credentials Verify
Información general de Amazon Titan Image Generator v1
ID del modelo:
amazon.titan-image-generator-v1
Número máximo de caracteres de entrada: 512 caracteres
Tamaño máximo de la imagen de entrada: 5 MB (solo se admiten algunas resoluciones específicas)
Tamaño máximo de imagen con in/outpainting: 1408 x 1408 px
Tamaño máximo de imagen utilizando la variación de imagen: 4096 x 4096 px
Idiomas: inglés
Tipo de salida: imagen
Tipos de imagen compatibles: JPEG, JPG, PNG
Tipos de inferencia: rendimiento aprovisionado y bajo demanda
Casos de uso compatibles: generación de imágenes, edición de imágenes, variaciones de imágenes
Información general de Amazon Titan Image Generator v2
ID del modelo:
amazon.titan-image-generator-v2:0
Número máximo de caracteres de entrada: 512 caracteres
Tamaño máximo de la imagen de entrada: 5 MB (solo se admiten algunas resoluciones específicas)
Tamaño máximo de la imagen con in/outpainting, eliminación del fondo, acondicionamiento de imágenes, paleta de colores: 1408 x 1408 px
Tamaño máximo de imagen utilizando la variación de imagen: 4096 x 4096 px
Idiomas: inglés
Tipo de salida: imagen
Tipos de imagen compatibles: JPEG, JPG, PNG
Tipos de inferencia: rendimiento aprovisionado y bajo demanda
Casos de uso compatibles: generación de imágenes, edición de imágenes, variaciones de imágenes, eliminación de fondos, contenido guiado por color
Características
-
Generación de texto a imagen (T2I): introduzca una petición de texto y genere una nueva imagen como salida. La imagen generada captura los conceptos descritos en la petición de texto.
-
Microajuste de un modelo T2I: importe varias imágenes para capturar su propio estilo y personalización y, a continuación, microajuste el modelo T2I principal. El modelo microajustado genera imágenes que siguen el estilo y la personalización de un usuario específico.
-
Opciones de edición de imágenes: incluye inpainting, outpainting, generación de variaciones y edición automática sin máscara de imagen.
-
Inpainting: utiliza una imagen y una máscara de segmentación como entrada (ya sean especificadas por el usuario o calculadas por el modelo) y reconstruye la región dentro de la máscara. Utilice el inpainting para eliminar los elementos enmascarados y sustituirlos por píxeles de fondo.
-
Outpainting: utiliza una imagen y una máscara de segmentación como entrada (ya sean especificadas por el usuario o calculadas por el modelo) y genera nuevos píxeles que amplían la región de forma fluida. Utilice un outpainting preciso para conservar los píxeles de la imagen enmascarada al extender la imagen hasta los límites. Utilice el outpainting predeterminado para extender los píxeles de la imagen enmascarada hasta los límites de la imagen en función de la configuración de segmentación.
-
Variación de imagen: utiliza entre una y cinco imágenes y una petición opcional como entrada. Genera una imagen nueva que conserva el contenido de las imágenes de entrada, pero varía el estilo y el fondo.
-
Acondicionamiento de imágenes: (solo en la versión 2) utiliza una imagen de referencia de entrada para guiar la generación de imágenes. El modelo genera una imagen de salida que se alinea con el diseño y la composición de la imagen de referencia, sin dejar de seguir las peticiones textuales.
-
Coherencia del tema: (solo en la versión 2) la coherencia del tema permite a los usuarios afinar el modelo con imágenes de referencia para conservar el tema elegido (por ejemplo, una mascota, un zapato o un bolso) en las imágenes generadas.
-
Contenido guiado por colores: (solo en la versión 2) puede proporcionar una lista de códigos de color hexadecimales junto con una petición. Se puede proporcionar un rango de entre uno a diez códigos hexadecimales. La imagen devuelta por Titan Image Generator G1 V2 incorporará la paleta de colores proporcionada por el usuario.
-
Eliminación de fondo: (solo en la versión 2) identifica automáticamente varios objetos de la imagen de entrada y elimina el fondo. La imagen de salida tiene un fondo transparente.
-
Procedencia del contenido: usa sitios como Content Credentials Verify
para comprobar si Titan Image Generator ha generado una imagen. Esto debería indicar que la imagen se ha generado, a menos que se hayan eliminado los metadatos.
nota
Si utiliza un modelo de afinación, no podrá utilizar las características de inpainting, outpainting o paleta de colores de la API o del modelo.
Parámetros
Para obtener más información sobre los parámetros de inferencia delos modelos Amazon Titan Image Generator G1, consulte Parámetros de inferencia de Amazon Titan Image Generator G1.
Microajuste
Para obtener más información sobre cómo afinar los modelos Amazon Titan Image Generator G1, consulte las páginas siguientes.
Afinación y precios de los modelos Amazon Titan Image Generator G1
El modelo utiliza la siguiente fórmula de ejemplo para calcular el precio total por trabajo:
Precio total = pasos * Tamaño del lote * Precio por imagen vista
Valores mínimos (auto):
-
Pasos mínimos (auto): 500
-
Tamaño mínimo de lote: 8
-
Tasa de aprendizaje predeterminada: 0,00001
-
Precio por imagen vista: 0,005
Afinación de la configuración de los hiperparámetros
Pasos: número de veces que el modelo se expone a cada lote. No hay un número de pasos predeterminado establecido. Debe seleccionar un número entre 10 y 40 000 o un valor de cadena “Automática”.
Configuración de pasos automática: Amazon Bedrock determina un valor razonable en función de la información de formación. Seleccione esta opción para priorizar el rendimiento del modelo por encima del costo de la formación. El número de pasos se determina de forma automática. Por lo general, este número se situará entre 1000 y 8000 en función del conjunto de datos. Los costos del trabajo se ven afectados por el número de pasos utilizados para exponer el modelo a los datos. Consulte la sección de ejemplos de precios de los detalles de precios para comprender cómo se calcula el costo del trabajo. (Consulte la tabla de ejemplo anterior para ver cómo se relaciona el recuento de pasos con el número de imágenes cuando se selecciona Automática).
Configuración de pasos personalizada: puede introducir el número de pasos en los que quiere que Bedrock exponga su modelo personalizado a los datos de entrenamiento. Este valor puede estar entre 10 y 40 000. Puede reducir el costo por imagen producida por el modelo utilizando un valor de recuento de pasos más bajo.
Tamaño del lote: número de muestras procesadas antes de actualizar los parámetros del modelo. Este valor está entre 8 y 192 y es un múltiplo de 8.
Velocidad de aprendizaje: velocidad a la que se actualizan los parámetros del modelo después de cada lote de datos de entrenamiento. Este es un valor flotante entre 0 y 1. La velocidad de aprendizaje se establece en 0,00001 de forma predeterminada.
Para obtener más información sobre el procedimiento de afinación, consulte Envío de trabajo de personalización de modelos.
Salida
Los modelos Amazon Titan Image Generator G1 utilizan el tamaño y la calidad de la imagen de salida para determinar el precio de una imagen. Los modelos Amazon Titan Image Generator G1 tiene dos segmentos de precios según el tamaño: uno para imágenes de 512 x 512 y otro para imágenes de 1024 x 1024. El precio se basa en el tamaño de la imagen (alto x ancho), inferior o igual a 512 x 512 o superior a 512 x 512.
Para obtener más información sobre los precios de Amazon Bedrock, consulte Precios de Amazon Bedrock
Detección de marcas de agua
nota
La detección de marcas de agua para la consola y la API de Amazon Bedrock está disponible en la versión preliminar pública. Solo detecta marcas de agua generadas por Titan Image Generator G1. Esta característica no está disponible actualmente en las regiones us-west-2
y us-east-1
. La detección de marcas de agua es una detección muy precisa de la marca de agua generada por Titan Image Generator G1. Las imágenes modificadas respecto a la imagen original pueden producir resultados de detección menos precisos.
Este modelo agrega una marca de agua invisible a todas las imágenes generadas para reducir la difusión de información errónea, ayudar con la protección de derechos de autor y hacer un seguimiento del uso del contenido. La detección de marcas de agua le ayuda a confirmar si una imagen se ha generado con el modelo Titan Image Generator G1, comprobando si existe dicha marca de agua.
nota
La API de Watermark Detection está en versión preliminar y está sujeta a cambios. Recomendamos crear un entorno virtual para usar el SDK. Como las API de detección de marcas de agua no están disponibles en los SDK más recientes, recomendamos que desinstale la versión más reciente del SDK del entorno virtual antes de instalar la versión con las API de detección de marcas de agua.
Puedes subir su imagen para detectar si hay alguna marca de agua de Titan Image Generator G1 en la imagen. Use la consola para detectar una marca de agua de este modelo. Para ello, siga los pasos que se indican a continuación.
Para detectar una marca de agua con Titan Image Generator G1:
Abra la consola de Amazon Bedrock en Consola de Amazon Bedrock
. -
Seleccione Información general en el panel de navegación de Amazon Bedrock. Seleccione la pestaña Crear y probar.
-
En la sección Garantías, vaya a Detección de marcas de agua y seleccione Ver detección de marcas de agua.
-
Seleccione Cargar imagen y busque un archivo que esté en formato JPG o PNG. El tamaño de archivo máximo es de 5 MB.
-
Una vez cargado, se muestra una miniatura de la imagen con el nombre, el tamaño del archivo y la fecha de la última modificación. Seleccione X para eliminar o reemplazar la imagen de la sección Carga.
-
Seleccione Analizar para iniciar el análisis de detección de marcas de agua.
-
La vista previa de la imagen se muestra en Resultados e indica si se ha detectado una marca de agua con el mensaje Se detectó marca de agua debajo de la imagen y un banner sobre la imagen. Si no se detecta ninguna marca de agua, el texto que aparece debajo de la imagen indicará que No se detectó marca de agua.
-
Para cargar la siguiente imagen, seleccione una X en la miniatura de la imagen en la sección Cargar y elija una nueva imagen para analizarla.
Directrices sobre ingeniería de peticiones
Petición de máscara: este algoritmo clasifica los píxeles en conceptos. El usuario puede enviar un mensaje de texto que se utilizará para clasificar las áreas de la imagen que se van a enmascarar, en función de la interpretación de la petición de máscara. La opción de petición puede interpretar peticiones más complejas y codificar la máscara en el algoritmo de segmentación.
Máscara de imagen: también puede utilizar una máscara de imagen para establecer los valores de la máscara. La máscara de imagen se puede combinar con una entrada de petición para que la máscara mejore la precisión. El archivo de máscara de imagen debe cumplir los siguientes parámetros:
-
Los valores de la imagen de máscara deben ser 0 (negro) o 255 (blanco) para la imagen de máscara. El área de la máscara de imagen con el valor 0 se regenerará con la imagen de la petición del usuario o la imagen de entrada.
-
El campo
maskImage
debe ser una cadena de imagen codificada en base64. -
La imagen de la máscara debe tener las mismas dimensiones que la imagen de entrada (igual altura y anchura).
-
Solo se pueden usar archivos PNG o JPG para la imagen de entrada y la imagen de máscara.
-
La imagen de máscara solo debe usar valores de píxeles en blanco y negro.
-
La imagen de máscara solo puede utilizar los canales RGB (no se admite el canal alfa).
Para obtener más información sobre la ingeniería de peticiones de Amazon Titan Image Generator, consulte las Prácticas recomendadas de ingeniería de peticiones de modelos Amazon Titan Image Generator G1
Para ver las pautas generales de ingeniería de peticiones, consulte las Directrices de ingeniería de peticiones.