本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
亚马逊 Titan 图像生成器 G1 型号
Amazon Titan 图像生成器 G1 是一种图像生成模型。它有两个版本 v1 和 v2。
Amazon Titan 图像生成器 v1 使用户能够以多种方式生成和编辑图像。用户只需输入自然语言提示即可创建与其基于文本的描述相匹配的图像。此外,他们还可以上传和编辑现有图像,包括在不需要蒙版的情况下应用基于文本的提示,或者使用图像蒙版编辑图像的特定部分。该模型还支持外绘(可扩展图像的边界)和填充(填充缺失区域)。它提供了根据可选的文本提示生成图像变体的功能,以及即时自定义选项,允许用户使用参考图像传输样式或组合来自多个参考文献的样式,所有这些都无需任何微调。
Titan Image Generator v2 支持 Titan Image Generator v1 的所有现有功能,并增加了多项新功能。它允许用户利用参考图像来指导图像生成,其中输出图像与参考图像的布局和构图保持一致,同时仍然遵循文本提示。它还包括自动背景去除功能,无需任何用户输入即可从包含多个对象的图像中删除背景。该模型可以精确控制生成图像的调色板,使用户无需进行额外的微调即可保留品牌的视觉标识。此外,拍摄对象一致性功能使用户能够使用参考图像对模型进行微调,以便在生成的图像中保留所选拍摄对象(例如宠物、鞋子或手提包)。这套全面的功能使用户能够释放他们的创造潜力,将他们的想象力变为现实。
有关 Amazon Titan 图像生成器 G1 型号提示工程指南的更多信息,请参阅 A mazon Titan 图像生成器提示工程
为了继续支持负责任地使用人工智能的最佳实践,Titan Foundation Models (FMs) 旨在检测和删除数据中的有害内容,拒绝用户输入中的不当内容,并过滤模型中包含不当内容(例如仇恨言论、亵渎和暴力)的输出。Titan Image Generator FM 为所有生成的图像添加了不可见的水印和 C2PA
您可以使用 Amazon Bedrock 控制台中的水印检测功能,也可以调用 Amazon Bedrock 水印检测API(预览)来检查图像是否包含来自 Titan 图像生成器的水印。你也可以使用诸如 “内容凭证验证
亚马逊 Titan 图像生成器 v1 概述
模型 ID –
amazon.titan-image-generator-v1
最大输入字符数 — 512 个字符
最大输入图像大小 — 5 MB(仅支持某些特定的分辨率)
使用入/出绘时的最大图像尺寸 — 1,408 x 1,408 px px
使用图像变体的最大图像尺寸 – 4,096 x 4,096 像素
语言 – 英语
输出类型 – 图像
支持的图像类型 — JPEG、JPG、PNG
推理类型 – 按需吞吐量、预调配吞吐量
支持的用例 – 图像生成、图像编辑、图像变体
亚马逊 Titan 图像生成器 v2 概述
模型 ID –
amazon.titan-image-generator-v2:0
最大输入字符数 — 512 个字符
最大输入图像大小 — 5 MB(仅支持某些特定的分辨率)
使用入/出绘、背景移除、图像调节、调色板的最大图像尺寸 — 1,408 x 1,408 px
使用图像变体的最大图像尺寸 – 4,096 x 4,096 像素
语言 – 英语
输出类型 – 图像
支持的图像类型 — JPEG、JPG、PNG
推理类型 – 按需吞吐量、预调配吞吐量
支持的用例 — 图像生成、图像编辑、图像变体、背景移除、色彩指导内容
功能
-
Text-to-image (T2I) 生成-输入文本提示并生成新图像作为输出。生成的图像捕捉了文本提示所描述的概念。
-
T2I 模型的微调 – 导入多个图像以捕捉自己的风格和个性化,然后微调核心 T2I 模型。经过微调的模型将生成符合特定用户风格和个性化的图像。
-
图像编辑选项 — 包括:修复、外绘、生成变体以及不使用图像蒙版的自动编辑。
-
补绘 – 使用图像和分割掩膜作为输入(来自用户或由模型估计),并重建掩膜内的区域。可使用补绘功能移除掩膜元素并将其替换为背景像素。
-
扩绘 – 使用图像和分割掩膜作为输入(来自用户或由模型估计),并生成可无缝扩展区域的新像素。将图像扩展到边界时,可使用精准的扩绘功能来保留被掩膜遮盖图像的像素。根据分割设置,使用默认的扩绘功能将被掩膜遮盖图像的像素扩展到图像边界。
-
图像变体-使用 1 到 5 张图像和可选提示作为输入。它会生成一个新图像,该图像保留了输入图像的内容,但会改变其样式和背景。
-
图像调节-(仅限 V2)使用输入参考图像来指导图像生成。模型生成与参考图像的布局和构图一致的输出图像,同时仍遵循文本提示。
-
拍摄对象一致性-(仅限 V2)拍摄对象一致性允许用户使用参考图像微调模型,以便在生成的图像中保留所选拍摄对象(例如宠物、鞋子或手提包)。
-
颜色指导内容 —(仅限 V2)您可以提供十六进制颜色代码列表以及提示。可以提供 1 到 10 个十六进制代码的范围。返回的图片 Titan Image Generator G1 V2 将采用用户提供的调色板。
-
背景移除-(仅限 V2)自动识别输入图像中的多个对象并移除背景。输出图像具有透明背景。
-
内容来源 — 使用诸如 “内容凭证验证
” 之类的网站来检查图像是否由泰坦图像生成器生成。除非删除了元数据,否则这应表明图像已生成。
注意
如果您使用的是经过微调的模型,则不能使用或模型的修复功能、外涂功能或调色板功能。API
参数
有关亚马逊 Titan 图像生成器 G1 模型推理参数的信息,请参阅亚马逊 Titan 图像生成器 G 1 模型推理参数。
微调
有关微调 Amazon Titan 图像生成器 G1 型号的更多信息,请参阅以下页面。
Amazon Titan 图像生成器 G1 模型微调和定价
该模型使用以下示例公式来计算每份工作的总价格:
总价格 = 步数 * 批次大小 * 每张图片的价格
最小值(auto):
-
最小步数 (auto)-500
-
最小批量大小-8
-
默认学习率-0.00001
-
每张图片的价格-0.005
微调超参数设置
步骤-模型在每个批次中暴露的次数。没有设置默认的步数。您必须选择一个介于 10-40,000 之间的数字,或者选择 “自动” 的字符串值。
步骤设置-自动 — Amazon Bedrock 根据训练信息确定合理的值。选择此选项可优先考虑模型性能而不是训练成本。步数是自动确定的。根据您的数据集,此数字通常介于 1,000 到 8,000 之间。Job 成本受用于向数据公开模型的步骤数的影响。请参阅定价详情的定价示例部分,了解工作成本是如何计算的。(参见上面的示例表,了解选择 “自动” 时步数与图像数量的关系。)
步骤设置-自定义- 您可以输入希望 Bedrock 向训练数据公开自定义模型的步数。此值可以介于 10 到 40,000 之间。您可以使用较低的步数值来降低模型生成的每张图像的成本。
Batch siz e-更新模型参数之前处理的样本数量。该值介于 8 和 192 之间,是 8 的倍数。
学习率-每批训练数据之后模型参数的更新速率。这是一个介于 0 和 1 之间的浮点值。默认情况下,学习率设置为 0.00001。
有关微调程序的更多信息,请参阅提交模型定制任务。
输出
Amazon Titan 图像生成器 G1 型号使用输出的图像大小和质量来确定图像的定价。Amazon Titan Image Generator G1 型号有两个基于尺寸的定价段:一个用于512*512张图像,另一个用于1024*1024张图像。价格是根据图像尺寸(高度*宽度)确定的,是小于、等于 512*512 还是大于 512*512。
有关亚马逊 Bedrock 定价的更多信息,请参阅亚马逊 Bedrock
水印检测
注意
适用于 Amazon Bedrock 控制台的水印检测,在公共预览版中可用,并且只能检测从 Titan Image Generator Generator G1 生成的水印。API此功能目前仅在us-west-2
和us-east-1
区域可用。水印检测是对 Titan 图像生成器 G1 生成的水印的高精度检测。修改原始图像的图像可能会产生不太准确的检测结果。
该模型为所有生成的图像添加了不可见的水印,以减少错误信息的传播,协助版权保护并跟踪内容的使用情况。水印检测可帮助您确认图像是否由泰坦图像生成器 G1 模型生成,该模型会检查该水印是否存在。
注意
水印检测API处于预览阶段,可能会发生变化。我们建议您创建一个虚拟环境来使用SDK。由于水印检测在最新版本中APIs不可用SDKs,因此我们建议您在安装带有水印检测功能的版本之前,先SDK从虚拟环境中卸载最新版本的APIs。
您可以上传图像以检测图像上是否存在来自 Titan Image Generator G1 的水印。按照以下步骤,使用控制台检测此模型的水印。
要使用泰坦图像生成器 G1 检测水印,请执行以下操作:
在 Amazon Bedrock 控制台
中打开 Amazon Bedrock 控制台 -
从 Amazon Bedrock 的导航窗格中选择 “概览”。选择 “生成和测试” 选项卡。
-
在 “安全措施” 部分中,转到 “水印检测”,然后选择 “查看水印检测”。
-
选择 “上传图片”,然后找到PNG格式为JPG或的文件。允许的最大文件大小为 5 MB。
-
上传后,将显示图像的缩略图,其中包含名称、文件大小和上次修改日期。选择 X 可从 “上传” 部分删除或替换图片。
-
选择分析开始水印检测分析。
-
图像在 “结果” 下预览,并指示是否检测到水印,图像下方检测到水印,图像上有横幅。如果未检测到水印,则图像下方的文字将显示NOT检测到水印。
-
要加载下一张图片,请在 “上传” 部分的图像缩略图中选择 X,然后选择要分析的新图片。
提示工程准则
掩膜提示 – 此算法将把像素划分为不同的概念。用户可提供一个文本提示,系统将根据对掩膜提示的解释,将图像的区域进行分类以使用掩膜遮盖。提示选项可以解释更复杂的提示,并将掩膜编码到分割算法中。
图像掩膜 – 也可以使用图像掩膜来设置掩膜值。可以将图像掩膜与掩膜的提示输入结合起来以提高准确性。图像掩膜文件必须遵守以下参数要求:
-
掩膜图像的值必须为 0(黑色)或 255(白色)。值为 0 的图像掩膜区域将使用用户提示和/或输入图像中的图像重新生成。
-
maskImage
字段必须为 base64 编码的图像字符串。 -
掩膜图像的尺寸必须与输入图像的尺寸相同(高度和宽度相同)。
-
只有PNG或JPG文件可以用于输入图像和蒙版图像。
-
掩膜图像只能使用黑白像素值。
-
蒙版图像只能使用RGB通道(不支持 Alpha 通道)。
有关 Amazon Titan 图像生成器提示工程的更多信息,请参阅 Amazon Titan 图像生成器 G1 模型提示工程
有关提示工程的一般性准则,请参阅提示工程准则。