Amazon Titan 图像生成器 G1 模型 - Amazon Bedrock

Amazon Titan 图像生成器 G1 模型

Amazon Titan 图像生成器 G1 是一款图像生成模型,有 v1 和 v2 两个版本。

Amazon Titan 图像生成器 v1 使用户能够以多种方式生成和编辑图像。用户只需输入自然语言提示即可创建与其基于文本的描述相匹配的图像。此外,他们还可以上传和编辑现有图像,包括在无需掩码的情况下应用基于文本的提示,或者使用图像掩码编辑图像的特定部分。该模型还支持扩绘(扩展图像的边界)和补绘(填充缺失区域)。它能够基于可选的文本提示生成图像变体,并提供即时自定义选项,让用户能够使用参考图像传输样式或组合来自多个参考的样式,且所有这些都无需进行任何微调。

Titan Image Generator v2 支持 Titan Image Generator v1 的所有现有功能,并增加了多项新功能。它支持用户利用参考图像来指导图像生成,其中输出图像与参考图像的布局和构图保持一致,同时仍然遵循文本提示。它还包括自动背景移除功能,无需任何用户输入即可从包含多个对象的图像中移除背景。该模型可以精确控制生成图像的调色板,使用户无需进行额外的微调即可保留品牌的视觉形象。此外,对象一致性功能让用户能够使用参考图像对模型进行微调,以便在生成的图像中保留所选的对象(例如,宠物、鞋子或手提包)。这套全面的功能让用户能够释放他们的创造潜力,将他们的想象力变为现实。

有关 Amazon Titan 图像生成器 G1 模型提示工程准则的更多信息,请参阅 Amazon Titan Image Generator Prompt Engineering Best Practices

为继续支持负责任地使用 AI 的最佳实践,Titan 基础模型(FM)旨在检测和删除数据中的有害内容,拒绝用户输入中的不当内容,并筛选包含不当内容(如仇恨言论、亵渎和暴力)的模型输出。Titan Image Generator FM 为所有生成的图像添加了不可见的水印和 C2PA 元数据。

您可以使用 Amazon Bedrock 控制台中的水印检测功能或调用 Amazon Bedrock 水印检测 API(预览版)来检查图像是否包含 Titan Image Generator 提供的水印。您也可以使用 Content Credentials Verify 之类的网站来检查图像是否由 Titan Image Generator 生成。

Amazon Titan 图像生成器 v1 概述

  • 模型 IDamazon.titan-image-generator-v1

  • 最大输入字符数 – 512 个字符

  • 最大输入图像大小 – 5 MB(仅支持某些特定的分辨率)

  • 使用补绘/扩绘的最大图像尺寸 – 1,408 x 1,408 像素

  • 使用图像变体的最大图像尺寸 – 4,096 x 4,096 像素

  • 语言 – 英语

  • 输出类型 – 图像

  • 支持的图像类型 – JPEG、JPG、PNG

  • 推理类型 – 按需吞吐量、预调配吞吐量

  • 支持的用例 – 图像生成、图像编辑、图像变体

Amazon Titan 图像生成器 v2 概述

  • 模型 IDamazon.titan-image-generator-v2:0

  • 最大输入字符数 – 512 个字符

  • 最大输入图像大小 – 5 MB(仅支持某些特定的分辨率)

  • 使用补绘/扩绘、背景移除、图像调节、调色板的最大图像尺寸 – 1,408 x 1,408 像素

  • 使用图像变体的最大图像尺寸 – 4,096 x 4,096 像素

  • 语言 – 英语

  • 输出类型 – 图像

  • 支持的图像类型 – JPEG、JPG、PNG

  • 推理类型 – 按需吞吐量、预调配吞吐量

  • 支持的使用案例 – 图像生成、图像编辑、图像变体、背景移除、色彩指导内容

功能

  • 文本到图像 (T2I) 生成 – 输入一个文本提示,生成新图像作为输出。生成的图像捕捉了文本提示所描述的概念。

  • T2I 模型的微调 – 导入多个图像以捕捉自己的风格和个性化,然后微调核心 T2I 模型。经过微调的模型将生成符合特定用户风格和个性化的图像。

  • 图像编辑选项 – 包括:补绘、扩绘、生成变体以及不使用图像掩码的自动编辑。

  • 补绘 – 使用图像和分割掩膜作为输入(来自用户或由模型估计),并重建掩膜内的区域。可使用补绘功能移除掩膜元素并将其替换为背景像素。

  • 扩绘 – 使用图像和分割掩膜作为输入(来自用户或由模型估计),并生成可无缝扩展区域的新像素。将图像扩展到边界时,可使用精准的扩绘功能来保留被掩膜遮盖图像的像素。根据分割设置,使用默认的扩绘功能将被掩膜遮盖图像的像素扩展到图像边界。

  • 图像变体 – 使用 1 到 5 张图像和可选提示作为输入。它会生成一个新图像,该图像将保留输入图像的内容,但会改变其样式和背景。

  • 图像调节 –(仅限 V2)使用输入参考图像来指导图像生成。模型生成与参考图像的布局和构图一致的输出图像,同时仍遵循文本提示。

  • 对象一致性 –(仅限 V2)对象一致性功能让用户能够使用参考图像微调模型,以便在生成的图像中保留所选对象(例如,宠物、鞋子或手提包)。

  • 色彩指导内容 –(仅限 V2)您可以提供十六进制颜色代码列表以及相应的提示。可以提供 1 到 10 个十六进制代码。Titan Image Generator G1 V2 返回的图像将包含用户提供的调色板。

  • 背景移除 –(仅限 V2)自动识别输入图像中的多个对象并移除背景。输出图像的背景是透明的。

  • 内容来源 – 使用 Content Credentials Verify 之类的网站来检查图像是否由 Titan Image Generator 生成。除非删除了元数据,否则这应表明图像已生成。

注意

如果您使用的是经过微调的模型,则无法使用 API 或模型的补绘、扩绘或调色板功能。

参数

有关 Amazon Titan 图像生成器 G1 模型推理参数的信息,请参阅 Amazon Titan Image Generator G1 模型推理参数

微调

有关 Amazon Titan 图像生成器 G1 模型微调的更多信息,请参阅以下页面。

Amazon Titan 图像生成器 G1 模型微调和定价

该模型使用以下示例公式来计算每个作业的总价格:

总价格 = 步数 * 批次大小 * 每张图像的价格

最小值(auto):

  • 最小步数(auto)– 500

  • 最小批次大小 – 8

  • 默认学习率 – 0.00001

  • 查看的每张图像的价格 – 0.005

微调超参数设置

Steps – 模型在每个批次中出现的次数。没有默认步数设置。您必须选择一个介于 10 - 40,000 之间的数字,或者选择“Auto”字符串值。

Step settings - Auto – Amazon Bedrock 基于训练信息确定合理的值。选择此选项会优先考虑模型性能而不是训练成本。步数是自动确定的。该数字通常介于 1,000 和 8,000 之间,具体取决于您的数据集。作业成本会受用于向数据公开模型的步数的影响。请参阅定价详情中的定价示例部分,了解作业成本是如何计算的。(请参见上面的示例表,了解选择“Auto”时步数与图像数量的关系。)

Step settings - Custom – 您可以输入希望 Bedrock 向训练数据公开自定义模型所需的步数。该值可以介于 10 到 40,000 之间。您可以通过使用较低的步数值来降低模型生成的每张图像的成本。

Batch size – 更新模型参数之前处理的样本数。该值介于 8 到 192 之间,且是 8 的倍数。

Learning rate – 模型参数在每个训练数据批次之后更新的速率。这是一个 0 到 1 之间的浮动值。默认情况下,学习率设置为 0.00001。

有关微调程序的更多信息,请参阅 Submit a model customization job

输出

Amazon Titan 图像生成器 G1 模型使用输出图像的大小和质量来确定图像的定价方式。Amazon Titan 图像生成器 G1 模型有两个基于尺寸的定价区间:一个适用于 512*512 的图像,另一个适用于 1024*1024 的图像。价格是根据图像尺寸(高度*宽度)确定的,是小于、等于 512*512 还是大于 512*512。

有关 Amazon Bedrock 定价的更多信息,请参阅 Amazon Bedrock Pricing

水印检测

注意

Amazon Bedrock 控制台和 API 的水印检测功能已在公共预览版中提供,并且只能检测从 Titan Image Generator G1 生成的水印。该功能目前仅在 us-west-2us-east-1 区域提供。水印检测是对 Titan Image Generator G1 生成的水印进行的高准确度检测。从原始图像进行修改的图像可能会产生不太准确的检测结果。

此模型将为所有生成的图像添加一个不可见的水印,以减少错误信息的传播、帮助保护版权以及跟踪内容使用情况。水印检测功能可以帮助您通过检查这个水印存在与否,确认图像是不是使用 Titan Image Generator G1 模型生成的。

注意

水印检测 API 目前处于预览阶段,可能会发生变化。建议您创建虚拟环境来使用 SDK。由于水印检测 API 在最新的 SDK 中不可用,建议您在安装带有水印检测 API 的版本之前,先从虚拟环境中卸载最新版本的 SDK。

您可以上传图像以检测图像上是否存在来自 Titan Image Generator G1 的水印。按照以下步骤,使用控制台检测此模型的水印。

检测 Titan Image Generator G1 的水印:
  1. Amazon Bedrock 控制台 中打开 Amazon Bedrock 控制台

  2. 从 Amazon Bedrock 的导航窗格中,选择概览。选择构建和测试选项卡。

  3. 保护措施部分中,转到水印检测,然后选择查看水印检测

  4. 选择上传图像,然后找到 JPG 或 PNG 格式的文件。允许的最大文件大小为 5 MB。

  5. 在您上传后,系统将显示图像的缩略图,其中包含名称、文件大小和最新修改日期。选择 X 可从上传部分删除或替换图像。

  6. 选择分析,开始水印检测分析。

  7. 图像可以在结果下进行预览,并且会指示是否检测到水印。如果是,则图像下方会显示检测到水印,且在图像上显示横幅。如果未检测到水印,图像下方将显示未检测到水印文本。

  8. 要加载下一张图像,请在上传部分的图像缩略图中选择 X,然后选择要分析的新图像。

提示工程准则

掩膜提示 – 此算法将把像素划分为不同的概念。用户可提供一个文本提示,系统将根据对掩膜提示的解释,将图像的区域进行分类以使用掩膜遮盖。提示选项可以解释更复杂的提示,并将掩膜编码到分割算法中。

图像掩膜 – 也可以使用图像掩膜来设置掩膜值。可以将图像掩膜与掩膜的提示输入结合起来以提高准确性。图像掩膜文件必须遵守以下参数要求:

  • 掩膜图像的值必须为 0(黑色)或 255(白色)。值为 0 的图像掩膜区域将使用用户提示和/或输入图像中的图像重新生成。

  • maskImage 字段必须为 base64 编码的图像字符串。

  • 掩膜图像的尺寸必须与输入图像的尺寸相同(高度和宽度相同)。

  • 只能使用 PNG 或 JPG 文件作为输入图像和掩膜图像。

  • 掩膜图像只能使用黑白像素值。

  • 掩膜图像只能使用 RGB 通道(不支持 Alpha 通道)。

有关 Amazon Titan 图像生成器提示工程的更多信息,请参阅 Amazon Titan Image Generator G1 models Prompt Engineering Best Practices

有关提示工程的一般性准则,请参阅提示工程准则