本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon Titan 图像生成器 G1 型号概述
Amazon Titan 图像生成器 G1 是一款图像生成模型,有 v1 和 v2 两个版本。
Amazon Titan 图像生成器 v1 使用户能够以多种方式生成和编辑图像。用户只需输入自然语言提示即可创建与其基于文本的描述相匹配的图像。此外,他们还可以上传和编辑现有图像,包括在无需掩码的情况下应用基于文本的提示,或者使用图像掩码编辑图像的特定部分。该模型还支持扩绘(扩展图像的边界)和补绘(填充缺失区域)。它能够基于可选的文本提示生成图像变体,并提供即时自定义选项,让用户能够使用参考图像传输样式或组合来自多个参考的样式,且所有这些都无需进行任何微调。
Titan Image Generator v2 支持 Titan Image Generator v1 的所有现有功能,并增加了多项新功能。它支持用户利用参考图像来指导图像生成,其中输出图像与参考图像的布局和构图保持一致,同时仍然遵循文本提示。它还包括自动背景移除功能,无需任何用户输入即可从包含多个对象的图像中移除背景。该模型可以精确控制生成图像的调色板,使用户无需进行额外的微调即可保留品牌的视觉形象。此外,对象一致性功能让用户能够使用参考图像对模型进行微调,以便在生成的图像中保留所选的对象(例如,宠物、鞋子或手提包)。这套全面的功能让用户能够释放他们的创造潜力,将他们的想象力变为现实。
有关 Amazon Titan 图像生成器 G1 模型提示工程准则的更多信息,请参阅 Amazon Titan Image Generator Prompt Engineering Best Practices
为了继续支持负责任地使用人工智能的最佳实践,Titan Foundation Models (FMs) 旨在检测和删除数据中的有害内容,拒绝用户输入中的不当内容,并过滤模型中包含不当内容(例如仇恨言论、亵渎和暴力)的输出。Titan Image Generator FM 为所有生成的图像添加了不可见的水印和 C2PA
您可以使用 Amazon Bedrock 控制台中的水印检测功能,也可以调用 Amazon Bedrock 水印检测API(预览)来检查图像是否包含来自 Titan 图像生成器的水印。您也可以使用 Content Credentials Verify
Amazon Titan 图像生成器 v1 概述
模型 ID –
amazon.titan-image-generator-v1
最大输入字符数 – 512 个字符
最大输入图像大小 – 5 MB(仅支持某些特定的分辨率)
使用补绘/扩绘的最大图像尺寸 – 1,408 x 1,408 像素
使用图像变体的最大图像尺寸 – 4,096 x 4,096 像素
语言 – 英语
输出类型 – 图像
支持的图像类型 — JPEG、JPG、PNG
推理类型 – 按需吞吐量、预调配吞吐量
支持的用例 – 图像生成、图像编辑、图像变体
Amazon Titan 图像生成器 v2 概述
模型 ID –
amazon.titan-image-generator-v2:0
最大输入字符数 – 512 个字符
最大输入图像大小 – 5 MB(仅支持某些特定的分辨率)
使用补绘/扩绘、背景移除、图像调节、调色板的最大图像尺寸 – 1,408 x 1,408 像素
使用图像变体的最大图像尺寸 – 4,096 x 4,096 像素
语言 – 英语
输出类型 – 图像
支持的图像类型 — JPEG、JPG、PNG
推理类型 – 按需吞吐量、预调配吞吐量
支持的使用案例 – 图像生成、图像编辑、图像变体、背景移除、色彩指导内容
特征
-
Text-to-image (T2I) 生成-输入文本提示并生成新图像作为输出。生成的图像捕捉了文本提示所描述的概念。
-
T2I 模型的微调 – 导入多个图像以捕捉自己的风格和个性化,然后微调核心 T2I 模型。经过微调的模型将生成符合特定用户风格和个性化的图像。
-
图像编辑选项 – 包括:补绘、扩绘、生成变体以及不使用图像掩码的自动编辑。
-
补绘 – 使用图像和分割掩膜作为输入(来自用户或由模型估计),并重建掩膜内的区域。可使用补绘功能移除掩膜元素并将其替换为背景像素。
-
扩绘 – 使用图像和分割掩膜作为输入(来自用户或由模型估计),并生成可无缝扩展区域的新像素。将图像扩展到边界时,可使用精准的扩绘功能来保留被掩膜遮盖图像的像素。根据分割设置,使用默认的扩绘功能将被掩膜遮盖图像的像素扩展到图像边界。
-
图像变体 – 使用 1 到 5 张图像和可选提示作为输入。它会生成一个新图像,该图像将保留输入图像的内容,但会改变其样式和背景。
-
图像调节 –(仅限 V2)使用输入参考图像来指导图像生成。模型生成与参考图像的布局和构图一致的输出图像,同时仍遵循文本提示。
-
对象一致性 –(仅限 V2)对象一致性功能让用户能够使用参考图像微调模型,以便在生成的图像中保留所选对象(例如,宠物、鞋子或手提包)。
-
色彩指导内容 –(仅限 V2)您可以提供十六进制颜色代码列表以及相应的提示。可以提供 1 到 10 个十六进制代码。返回的图片 Titan Image Generator G1 V2 将采用用户提供的调色板。
-
背景移除 –(仅限 V2)自动识别输入图像中的多个对象并移除背景。输出图像的背景是透明的。
-
内容来源 – 使用 Content Credentials Verify
之类的网站来检查图像是否由 Titan Image Generator 生成。除非删除了元数据,否则这应表明图像已生成。
注意
如果您使用的是经过微调的模型,则不能使用或模型的修复功能、外涂功能或调色板功能。API
参数
有关 Amazon Titan 图像生成器 G1 模型推理参数的信息,请参阅 Amazon Titan Image Generator G1 模型推理参数。
微调
有关 Amazon Titan 图像生成器 G1 模型微调的更多信息,请参阅以下页面。
Amazon Titan 图像生成器 G1 模型微调和定价
该模型使用以下示例公式来计算每个作业的总价格:
总价格 = 步数 * 批次大小 * 每张图像的价格
最小值(auto):
-
最小步数(auto)– 500
-
最小批次大小 – 8
-
默认学习率 – 0.00001
-
查看的每张图像的价格 – 0.005
微调超参数设置
Steps – 模型在每个批次中出现的次数。没有默认步数设置。您必须选择一个介于 10 - 40,000 之间的数字,或者选择“Auto”字符串值。
Step settings - Auto – Amazon Bedrock 基于训练信息确定合理的值。选择此选项会优先考虑模型性能而不是训练成本。步数是自动确定的。该数字通常介于 1,000 和 8,000 之间,具体取决于您的数据集。作业成本会受用于向数据公开模型的步数的影响。请参阅定价详情中的定价示例部分,了解作业成本是如何计算的。(请参见上面的示例表,了解选择“Auto”时步数与图像数量的关系。)
Step settings - Custom – 您可以输入希望 Bedrock 向训练数据公开自定义模型所需的步数。该值可以介于 10 到 40,000 之间。您可以通过使用较低的步数值来降低模型生成的每张图像的成本。
Batch size – 更新模型参数之前处理的样本数。该值介于 8 到 192 之间,且是 8 的倍数。
Learning rate – 模型参数在每个训练数据批次之后更新的速率。这是一个 0 到 1 之间的浮动值。默认情况下,学习率设置为 0.00001。
有关微调程序的更多信息,请参阅 Submit a model customization job。
输出
Amazon Titan 图像生成器 G1 模型使用输出图像的大小和质量来确定图像的定价方式。Amazon Titan 图像生成器 G1 模型有两个基于尺寸的定价区间:一个适用于 512*512 的图像,另一个适用于 1024*1024 的图像。价格是根据图像尺寸(高度*宽度)确定的,是小于、等于 512*512 还是大于 512*512。
有关 Amazon Bedrock 定价的更多信息,请参阅 Amazon Bedrock Pricing
水印检测
注意
适用于 Amazon Bedrock 控制台的水印检测,在公共预览版中可用,并且只能检测从 Titan Image Generator Generator G1 生成的水印。API该功能目前仅在 us-west-2
和 us-east-1
区域提供。水印检测是对 Titan Image Generator G1 生成的水印进行的高准确度检测。从原始图像进行修改的图像可能会产生不太准确的检测结果。
此模型将为所有生成的图像添加一个不可见的水印,以减少错误信息的传播、帮助保护版权以及跟踪内容使用情况。水印检测功能可以帮助您通过检查这个水印存在与否,确认图像是不是使用 Titan Image Generator G1 模型生成的。
注意
水印检测API处于预览阶段,可能会发生变化。我们建议您创建一个虚拟环境来使用SDK。由于水印检测在最新版本中APIs不可用SDKs,因此我们建议您在安装带有水印检测功能的版本之前,先SDK从虚拟环境中卸载最新版本的APIs。
您可以上传图像以检测图像上是否存在来自 Titan Image Generator G1 的水印。按照以下步骤,使用控制台检测此模型的水印。
检测 Titan Image Generator G1 的水印:
在 Amazon Bedrock 控制台
中打开 Amazon Bedrock 控制台 -
从 Amazon Bedrock 的导航窗格中,选择概览。选择构建和测试选项卡。
-
在保护措施部分中,转到水印检测,然后选择查看水印检测。
-
选择 “上传图片”,然后找到PNG格式为JPG或的文件。允许的最大文件大小为 5 MB。
-
在您上传后,系统将显示图像的缩略图,其中包含名称、文件大小和最新修改日期。选择 X 可从上传部分删除或替换图像。
-
选择分析,开始水印检测分析。
-
图像可以在结果下进行预览,并且会指示是否检测到水印。如果是,则图像下方会显示检测到水印,且在图像上显示横幅。如果未检测到水印,则图像下方的文字将显示NOT检测到水印。
-
要加载下一张图像,请在上传部分的图像缩略图中选择 X,然后选择要分析的新图像。
提示工程准则
掩膜提示 – 此算法将把像素划分为不同的概念。用户可提供一个文本提示,系统将根据对掩膜提示的解释,将图像的区域进行分类以使用掩膜遮盖。提示选项可以解释更复杂的提示,并将掩膜编码到分割算法中。
图像掩膜 – 也可以使用图像掩膜来设置掩膜值。可以将图像掩膜与掩膜的提示输入结合起来以提高准确性。图像掩膜文件必须遵守以下参数要求:
-
掩膜图像的值必须为 0(黑色)或 255(白色)。值为 0 的图像掩膜区域将使用用户提示和/或输入图像中的图像重新生成。
-
maskImage
字段必须为 base64 编码的图像字符串。 -
掩膜图像的尺寸必须与输入图像的尺寸相同(高度和宽度相同)。
-
只有PNG或JPG文件可以用于输入图像和蒙版图像。
-
掩膜图像只能使用黑白像素值。
-
蒙版图像只能使用RGB通道(不支持 Alpha 通道)。
有关 Amazon Titan 图像生成器提示工程的更多信息,请参阅 Amazon Titan Image Generator G1 models Prompt Engineering Best Practices
有关提示工程的一般性准则,请参阅提示工程准则。