Amazon Titan Image Generator G1 模型概觀 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Titan Image Generator G1 模型概觀

Amazon Titan Image Generator G1 是一種影像產生模型。它有兩種版本 v1 和 v2。

Amazon Titan Image Generator v1 可讓使用者以多種方式產生和編輯映像。使用者只需輸入自然語言提示,即可建立符合其文字描述的影像。此外,他們可以上傳和編輯現有的影像,包括套用文字型提示而不需要遮罩,或使用影像遮罩編輯影像的特定部分。此模型也支援移色,可擴展影像的邊界,以及填補缺少區域的移色。它提供根據選用的文字提示產生影像變化的功能,以及即時自訂選項,可讓使用者使用參考影像傳輸樣式,或從多個參考結合樣式,而不需要任何微調。

Titan Image Generator v2 支援 Titan Image Generator v1 的所有現有功能,並新增了數種新功能。它允許使用者利用參考影像來引導影像產生,其中輸出影像與參考影像的配置和組成相符,同時仍遵循文字提示。它還包含自動背景移除功能,可以從包含多個物件的影像中移除背景,而不需要任何使用者輸入。此模型可精確控制所產生影像的調色盤,讓使用者保留品牌的視覺身分,而不需要額外的微調。此外,主體一致性功能可讓使用者使用參考影像微調模型,以在產生的映像中保留所選主體 (例如寵物、鞋子或包包)。這個全面的功能套件可讓使用者釋放其創造潛力,並將想像力的願景帶入現實。

如需 Amazon Titan Image Generator G1 模型提示工程準則的詳細資訊,請參閱 Amazon Titan Image Generator Prompt Engineering 最佳實務

為了繼續支援 AI 負責任使用的最佳實務,Titan Foundation Models (FMs) 旨在偵測和移除資料中的有害內容、拒絕使用者輸入中的不適當內容,以及篩選包含不適當內容 (例如仇恨語音、褻瀆和暴力) 的模型輸出。Titan Image Generator FM 會將隱形浮水印和 C2PA 中繼資料新增至所有產生的映像。

您可以使用 Amazon Bedrock 主控台中的浮水印偵測功能,或呼叫 Amazon Bedrock 浮水印偵測 API (預覽) 來檢查映像是否包含來自 Titan Image Generator 的浮水印。您也可以使用內容登入資料驗證等網站,檢查影像是否由 Titan Image Generator 產生。

Amazon Titan Image Generator v1 概觀

  • 模型 IDamazon.titan-image-generator-v1

  • 最大輸入字元 – 512 個字元

  • 最大輸入映像大小 – 5 MB (僅支援某些特定解析度)

  • 使用輸入/輸出的映像大小上限 – 1,408 x 1,408 px px

  • 使用影像變體的影像大小上限 - 4,096 x 4,096 像素

  • 語言 — 英文

  • 輸出類型 — 影像

  • 支援的影像類型 — JPEG、JPG、PNG

  • 推論類型 — 隨需、佈建的輸送量

  • 支援的使用案例 - 產生影像、編輯影像、影像變體

Amazon Titan Image Generator v2 概觀

  • 模型 IDamazon.titan-image-generator-v2:0

  • 最大輸入字元 – 512 個字元

  • 最大輸入映像大小 – 5 MB (僅支援某些特定解析度)

  • 使用輸入/輸出、背景移除、影像調節、調色盤 – 1,408 x 1,408 px 的最大影像大小

  • 使用影像變體的影像大小上限 - 4,096 x 4,096 像素

  • 語言 — 英文

  • 輸出類型 — 影像

  • 支援的影像類型 — JPEG、JPG、PNG

  • 推論類型 — 隨需、佈建的輸送量

  • 支援的使用案例 – 影像產生、影像編輯、影像變化、背景移除、顏色引導內容

功能

  • 產生文字轉影像 (T2I) – 輸入文字提示並產生新影像作為輸出。產生的影像會擷取文字提示描述的概念。

  • T2I 模型的微調 — 導入數個影像以捕捉您自己的風格和個人特色,然後微調核心 T2I 模型。微調的模型會產生符合特定使用者風格和個人特色的影像。

  • 影像編輯選項 - 包括:注入、除色、產生變化,以及不使用影像遮罩自動編輯。

  • 修圖 — 使用影像和分割遮罩做為輸入 (來自使用者或模型估計),並重建遮罩中的區域。使用修圖功能來移除遮罩元素,並以背景像素取而代之。

  • 擴圖 — 使用影像和分割遮罩做為輸入 (來自使用者或由模型估算),並產生無縫延伸區域的新像素。將影像延伸至邊界時,使用精確的擴圖功能來保留遮罩影像的像素。使用預設擴圖功能,根據分割設定將遮罩影像的像素延伸至影像邊界。

  • 影像變化 – 使用 1 到 5 個影像和選用提示做為輸入。它會產生新的映像,以保留輸入映像的內容 (但會變動其樣式和背景)。

  • 影像調節 – (僅限 V2) 使用輸入參考影像來引導影像產生。模型會產生輸出影像,使其與參考影像的配置和組成相符,同時仍遵循文字提示。

  • 主體一致性 – (僅限 V2) 主體一致性允許使用者使用參考影像微調模型,以在產生的影像中保留所選主體 (例如寵物、鞋子或包包)。

  • 顏色引導內容 – (僅限 V2) 您可以提供十六進位顏色代碼清單和提示。可提供 1 到 10 個十六進位碼的範圍。傳回的映像Titan Image Generator G1 V2將包含使用者提供的調色盤。

  • 背景移除 – (僅限 V2) 自動識別輸入映像中的多個物件並移除背景。輸出映像具有透明背景。

  • 內容來源 – 使用內容登入資料驗證等網站,檢查映像是否由 Titan Image Generator 產生。除非中繼資料已移除,否則應指出影像已產生。

注意

如果您使用的是微調的模型,則無法使用 API 或模型的浸色、噴色或調色板功能。

參數

如需 Amazon Titan Image Generator G1 模型推論參數的相關資訊,請參閱 Amazon Titan Image Generator G1 模型推論參數

微調

如需微調 Amazon Titan Image Generator G1 模型的詳細資訊,請參閱下列頁面。

Amazon Titan Image Generator G1 模型微調和定價

此模型使用下列範例公式來計算每個任務的總價格:

總價 = 步驟 * 批次大小 * 每個影像看到的價格

最小值 (自動):

  • 最小步驟 (自動) - 500

  • 最小批次大小 - 8

  • 預設學習率 - 0.00001

  • 每個影像顯示的價格 - 0.005

微調超參數設定

步驟 – 模型公開到每個批次的次數。未設定預設步驟計數。您必須選取介於 10 到 40,000 之間的數字,或字串值 "Auto"。

步驟設定 - Auto – Amazon Bedrock 會根據訓練資訊判斷合理的值。選取此選項,將模型效能的優先順序高於訓練成本。步驟數量會自動決定。根據您的資料集,此數字通常介於 1,000 到 8,000 之間。任務成本會受到用於向資料公開模型的步驟數量影響。請參閱定價詳細資訊的定價範例區段,以了解如何計算任務成本。(請參閱上表的範例,了解選取自動時,步驟計數與影像數量的關係。)

步驟設定 – 自訂 – 您可以輸入您希望 Bedrock 向訓練資料公開自訂模型的步驟數目。此值可以介於 10 到 40,000 之間。您可以使用較低的步進計數值來降低模型產生的每個映像成本。

批次大小 – 在更新模型參數之前處理的樣本數量。此值介於 8 到 192 之間,且為 8 的倍數。

學習率 – 每批次訓練資料後更新模型參數的速率。這是介於 0 和 1 之間的浮點值。學習率預設為 0.00001。

如需微調程序的詳細資訊,請參閱提交模型自訂任務。

輸出

Amazon Titan Image Generator G1 模型使用輸出映像大小和品質來判斷映像的定價方式。Amazon Titan Image Generator G1 模型根據大小有兩個定價區段:一個用於 512*512 映像,另一個用於 1024*1024 映像。定價是根據影像尺寸高度 * 寬度,小於或等於 512* 512 或大於 512* 512。

如需 Amazon Bedrock 定價的詳細資訊,請參閱 Amazon Bedrock 定價。

Watermark 偵測

注意

Amazon Bedrock 主控台和 API 的浮水印偵測可在公開預覽版本中使用,而且只會偵測從 Titan Image Generator G1 產生的浮水印。此功能目前僅適用於 us-west-2us-east-1區域。浮水印偵測是 Titan Image Generator G1 產生的浮水印的高度準確偵測。從原始映像修改的影像可能會產生不準確的偵測結果。

此模型會為所有產生的映像新增不可見浮水印,以減少資訊錯誤傳播、協助著作權保護,以及追蹤內容用量。浮水印偵測可協助您確認映像是否由 Titan Image Generator G1 模型產生,該模型會檢查是否存在此浮水印。

注意

Watermark Detection API 處於預覽狀態,可能會有所變更。我們建議您建立虛擬環境以使用 SDK。由於水印偵測 APIs不適用於最新的 SDKs,建議您先從虛擬環境解除安裝最新版本的 SDK,再使用水印偵測 APIs 安裝版本。

您可以上傳映像,以偵測映像上是否存在來自 Titan Image Generator G1 的浮水印。依照下列步驟,使用 主控台偵測此模型中的浮水印。

若要使用 Titan Image Generator G1 偵測浮水印:
  1. Amazon Bedrock 主控台開啟 Amazon Bedrock 主控台

  2. 從 Amazon Bedrock 中的導覽窗格中選取概觀。選擇建置和測試索引標籤。

  3. 防護區段中,前往浮水印偵測,然後選擇檢視浮水印偵測

  4. 選取上傳映像,並尋找 JPG 或 PNG 格式的檔案。允許的檔案大小上限為 5 MB。

  5. 上傳後,影像的縮圖會顯示名稱、檔案大小和上次修改日期。選取 X 從上傳區段刪除或取代映像。

  6. 選取分析以開始浮水印偵測分析。

  7. 影像會在結果下預覽,並指出是否偵測到浮水印,以及在影像下方偵測到浮水印,以及跨影像的橫幅。如果未偵測到浮水印,影像下方的文字會顯示 Watermark NOT detected

  8. 若要載入下一個映像,請在上傳區段中的映像縮圖中選取 X,然後選擇要分析的新映像。

提示詞工程指導方針

遮罩提示 — 此演算法會將像素歸類為概念。使用者可以提供文字提示,用於根據遮罩提示的解釋對要遮罩的影像區域進行分類。提示選項可以解譯更複雜的提示,並將遮罩編碼為分割演算法。

影像遮罩 — 您也可以使用影像遮罩來設定遮罩值。影像遮罩可與遮罩的提示輸入結合使用,以提高準確度。影像遮罩檔必須符合以下參數:

  • 遮罩影像的遮罩影像值必須是 0 (黑) 或 255 (白)。值為 0 的影像遮罩區域,會以使用者提示和/或輸入影像中的影像重新產生。

  • maskImage 欄位必須是 base64 編碼的影像字串。

  • 遮罩影像必須具有與輸入影像相同的尺寸 (相同的高度和寬度)。

  • 輸入影像和遮罩影像只能使用 PNG 或 JPG 檔案。

  • 遮罩影像只能使用黑白像素值。

  • 遮罩影像只能使用 RGB 色頻 (不支援 Alpha 色頻)。

如需 Amazon Titan Image Generator 提示工程的詳細資訊,請參閱 Amazon Titan Image Generator G1 模型提示工程最佳實務

如需一般提示詞工程指導方針,請參閱提示詞工程指導方針