Amazon Titan Image Generator G1 モデル - Amazon Bedrock

Amazon Titan Image Generator G1 モデル

Amazon Titan Image Generator G1 は画像生成モデルです。v1 と v2 の 2 つのバージョンがあります。

Amazon Titan Image Generator v1 では、ユーザーがさまざまな方法で画像を生成および編集することができます。ユーザーは、自然言語プロンプトを入力するだけで、テキストベースの説明に一致する画像を作成できます。さらに、マスクを必要とせずにテキストベースのプロンプトを適用したり、画像マスクを使用して画像の特定部分を編集したりするなど、既存の画像をアップロードして編集できます。このモデルは、画像の境界を拡張するアウトペインティングと、欠損している領域を修復するインペインティングの対応もします。オプションのテキストプロンプトに基づいて画像のバリエーションを生成する機能や、ユーザーがファインチューニングせずに、参照画像を使用してスタイルを転送したり、複数のリファレンスからスタイルを組み合わせることができる、即時にカスタマイズできるオプションを提供します。

Titan Image Generator v2 は、Titan Image Generator v1 のすべての既存の機能をサポートし、いくつかの新機能を追加します。これにより、ユーザーは参照画像を活用して画像生成をガイドすることができ、出力画像はテキストプロンプトに従いながら、参照画像のレイアウトと構図に一致します。また、自動背景削除機能も搭載されており、ユーザー入力なしで、複数のオブジェクトを含む画像から背景を削除します。このモデルでは、生成された画像のカラーパレットを正確に制御するため、ユーザーは追加のファインチューニングなしでブランドのビジュアルアイデンティティを維持できます。さらに、被写体の一貫性機能により、ユーザーは参照画像を使用してモデルをファインチューニングし、生成された画像で選択した被写体 (ペット、靴、ハンドバッグなど) を保持することができます。この包括的な一連の機能により、ユーザーは創造的な可能性を解き放ち、想像力豊かなビジョンを実現することができます。

Amazon Titan Image Generator G1 モデルのプロンプトエンジニアリングガイドラインの詳細については、「Amazon Titan Image Generator Prompt Engineering Best Practices」を参照してください。

AI の責任ある使用に関するベストプラクティスの継続的なサポートのため、Titan の基盤モデル (FM) はデータ内の有害なコンテンツを検出して削除し、ユーザー入力に含まれる不適切なコンテンツを拒否し、不適切なコンテンツ (ヘイトスピーチ、冒涜、暴力など) を含むモデル出力をフィルタリングするように構築されています。Titan Image Generator FM は、目に見えないウォーターマークと C2PA メタデータを生成されたすべての画像に追加します。

Amazon Bedrock コンソールのウォーターマーク検出機能を使用するか、Amazon Bedrock ウォーターマーク検出 API (プレビュー) を呼び出して、画像に Titan Image Generator のウォーターマークが含まれているかどうかを確認できます。Content Credentials Verify などのサイトを使用して、画像が Titan Image Generator によって生成されたかどうかを確認することもできます。

Amazon Titan Image Generator v1 の概要

  • モデル IDamazon.titan-image-generator-v1

  • 最大入力文字数 – 512 文字

  • 最大入力画像サイズ – 5 MB (一部の特定の解像度のみ対応)

  • イン/アウトペインティングを使用する場合の最大画像サイズ – 1,408 x 1,408 ピクセル

  • 画像バリエーションを使用する場合の最大画像サイズ – 4,096 x 4,096 ピクセル

  • 言語 – 英語

  • 出力タイプ – 画像

  • サポートされている画像タイプ – JPEG、JPG、PNG

  • 推論タイプ – オンデマンド、プロビジョンドスループット

  • サポートされているユースケース – 画像生成、画像編集、画像バリエーション

Amazon Titan Image Generator v2 の概要

  • モデル IDamazon.titan-image-generator-v2:0

  • 最大入力文字数 – 512 文字

  • 最大入力画像サイズ – 5 MB (一部の特定の解像度のみ対応)

  • イン/アウトペインティング、背景削除、画像の条件付け、カラーパレットを使用した最大画像サイズ – 1,408 x 1,408 ピクセル

  • 画像バリエーションを使用する場合の最大画像サイズ – 4,096 x 4,096 ピクセル

  • 言語 – 英語

  • 出力タイプ – 画像

  • サポートされている画像タイプ – JPEG、JPG、PNG

  • 推論タイプ – オンデマンド、プロビジョンドスループット

  • サポートされているユースケース – イメージ生成、画像編集、画像バリエーション、背景削除、カラーガイド付きコンテンツ

機能

  • テキストから画像 (T2I) 生成 – テキストプロンプトを入力し、出力として新しい画像を生成します。生成された画像には、テキストプロンプトで説明されている概念が取り込まれています。

  • T2I モデルのファインチューニング – 複数の画像をインポートして独自のスタイルやパーソナライゼーションを取り込み、核となる T2I モデルをファインチューニングします。ファインチューニングされたモデルでは、特定のユーザーのスタイルやパーソナライゼーションに合わせた画像が生成されます。

  • 画像編集オプション – 含まれるもの: インペインティング、アウトペインティング、バリエーションの生成、画像マスクなしの自動編集。

  • インペインティング – 画像とセグメンテーションマスクを入力 (ユーザーからの入力またはモデルによって推定された入力) として使用し、マスク内の領域を再構成します。インペインティングを使用して、マスクされている要素を削除し、背景ピクセルに置き換えることができます。

  • アウトペインティング – 画像とセグメンテーションマスクを入力 (ユーザーからの入力またはモデルによって推定された入力) として使用し、領域をシームレスに拡張する新しいピクセルを生成します。正確なアウトペインティングを使用すると、画像を境界まで拡張するときにマスクされた画像のピクセルが維持されます。デフォルトのアウトペイントを使用すると、セグメンテーション設定に基づいてマスクされた画像のピクセルが画像の境界まで拡張されます。

  • 画像バリエーション – 1~5 個の画像とオプションのプロンプトを入力として使用します。入力画像の内容はそのままに、スタイルや背景を変えて新しい画像を生成します。

  • 画像の条件付け – (V2 のみ) 入力された参照画像を使用してイメージ生成をガイドします。モデルは、テキストプロンプトに従いながら、参照画像のレイアウトと構図と一致する出力画像を生成します。

  • 被写体の一貫性 – (V2 のみ) 被写体の一貫性により、ユーザーは参照画像を使用してモデルを微調整し、生成された画像に選択した被写体 (ペット、靴、ハンドバッグなど) を保持できます。

  • カラーガイド付きコンテンツ – (V2 のみ) プロンプトとともに 16 進数カラーコードのリストを指定することができます。1~10 の 16 進数カラーコードを指定できます。Titan Image Generator G1 V2 によって返される画像には、ユーザーが指定したカラーパレットが組み込まれます。

  • 背景削除 – (V2 のみ) 入力画像内の複数のオブジェクトを自動的に識別し、背景を削除します。出力画像の背景は透明です。

  • コンテンツの出典 – Content Credentials Verify などのサイトを使用して、画像が Titan Image Generator によって生成されたかどうかを確認します。これは、メタデータが削除されていない限り、画像が生成されたことを示します。

注記

微調整されたモデルを使用している場合、API やモデルのインペインティング、アウトペインティング、カラーパレット機能は使用できません。

パラメータ

Amazon Titan Image Generator G1 モデルの推論パラメータについては、「Amazon Titan Image Generator G1 models inference parameters」を参照してください。

ファインチューニング

Amazon Titan Image Generator G1 モデルのファインチューニングの詳細については、以下のページを参照してください。

Amazon Titan Image Generator G1 モデルのファインチューニングと料金

このモデルは、次の数式例を使用して、ジョブあたりの合計料金を算出します。

合計料金 = ステップ * バッチサイズ * 表示された画像 1 枚あたりの料金

最小値 (自動):

  • 最小ステップ (自動) - 500

  • 最小バッチサイズ - 8

  • デフォルトの学習率 - 0.00001

  • 表示された画像 1 枚あたりの料金 - 0.005

ハイパーパラメータ設定の微調整

ステップ – モデルが各バッチに公開される回数。デフォルトのステップカウントは設定されていません。10~40,000 の数値、または文字列の値「自動」を選択する必要があります。

ステップ設定 - 自動 – Amazon Bedrock は、トレーニング情報に基づいて妥当な値を決定します。このオプションを選択すると、トレーニングコストよりもモデルのパフォーマンスが優先されます。ステップの数は自動的に決定されます。この数は、通常、データセットに基づいて 1,000~8,000 になります。ジョブコストは、モデルをデータに公開するために使用されるステップの数に影響を受けます。ジョブコストの計算方法については、料金詳細の料金の例セクションを参照してください。([自動] が選択した場合のステップ数と画像数の関係については、上の表の例を参照してください。)

ステップ設定 - カスタム - Bedrock がカスタムモデルをトレーニングデータに公開するステップ数を入力できます。この値は 10~40,000 の範囲で指定できます。ステップカウント値を低くすることで、モデルによって生成された画像あたりのコストを削減できます。

バッチサイズ – モデルパラメータの更新前に処理されたサンプル数。この値は 8~192 で、8 の倍数です。

学習率 – トレーニングデータの各バッチの後にモデルパラメータが更新される速度。これは 0~1 の間の浮動小数点数の値です。学習率はデフォルトで 0.00001 に設定されています。

ファインチューニング手順の詳細については、「Submit a model customization job」を参照してください。

出力

Amazon Titan Image Generator G1 モデルは、出力画像のサイズと品質を使用して画像の価格を決定します。Amazon Titan Image Generator G1 モデルには、サイズに基づいて 512 x 512 と 1,024 x 1,024 の 2 つの価格区分があります。料金は、画像サイズ (高さ x 幅) が 512 x 512 以下か 512 x 512 より大きいかによって決まります。

Amazon Bedrock の料金の詳細については、「Amazon Bedrock の料金」を参照してください。

ウォーターマーク検出

注記

Amazon Bedrock コンソールと API のウォーターマーク検出はパブリックプレビューリリースで利用可能で、Titan Image Generator G1 から生成されたウォーターマークのみを検出します。この機能は現在、us-west-2us-east-1 のリージョンのみで利用可能です。ウォーターマーク検出は、Titan Image Generator G1 によって生成されたウォーターマークを非常に正確に検出します。オリジナル画像から変更された画像では、検出結果の精度が低下する可能性があります。

このモデルは、生成されたすべての画像に目に見えないウォーターマークが追加することで、誤った情報の拡散を防ぎ、著作権保護を支援し、コンテンツの使用状況を追跡します。Titan Image Generator G1 モデルで生成された画像かどうかを確認するために、このウォーターマークの有無を確認するウォーターマーク検出が利用できます。

注記

ウォーターマーク検出 API はプレビュー中であり、変更される場合があります。SDK を使用するために仮想環境を作成することをお勧めします。ウォーターマーク検出 API は最新の SDK では使用できないため、ウォーターマーク検出 API を含むバージョンをインストールする前に、仮想環境から最新バージョンの SDK をアンインストールすることをお勧めします。

画像をアップロードして、Titan Image Generator G1 のウォーターマークがその画像上に存在するかどうかを検出することができます。コンソールを使用して、以下の手順に従いこのモデルからウォーターマークを検出します。

Titan Image Generator G1 でウォーターマークを検出するには:
  1. Amazon Bedrock コンソール」をクリックして、 Amazon Bedrock コンソールを開きます。

  2. Amazon Bedrock のナビゲーションペインから [概要] を選択します。[構築とテスト] のタブを選択します。

  3. [セーフガード] セクションで、[ウォーターマーク検出] に移動し、[ウォーターマーク検出を表示] を選択します。

  4. [画像をアップロード] を選択し、JPG または PNG 形式のファイルを見つけます。ファイルの最大サイズは 5 MB です。

  5. アップロードされると、画像のサムネイルが、名前、ファイルサイズ、最終変更日とともに表示されます。[アップロード] セクションから画像を削除または置き換えるには、X を選択します。

  6. [分析] を選択して、ウォーターマーク検出分析を開始します。

  7. 画像は [結果] でプレビューされ、ウォーターマークが検出された場合は画像下に [ウォーターマークが検出されました] と表示され、画像全体にバナーが表示されます。ウォーターマークが検出されない場合、画像下に [ウォーターマークは検出されませんでした] と表示されます。

  8. 次の画像を読み込むには、アップロードセクションの画像のサムネイルで X を選択し、分析する新しい画像を選択します。

プロンプトエンジニアリングガイドライン

マスクプロンプト – このアルゴリズムはピクセルをコンセプトに分類します。マスクする画像の領域をマスクプロンプトの解釈に基づいて分類するためのテキストプロンプトを、ユーザーが入力できます。プロンプトオプションを使うと、より複雑なプロンプトを解釈して、マスクをセグメンテーションアルゴリズムにエンコードできます。

画像マスク – 画像マスクを使用してマスク値を設定することもできます。画像マスクをマスクのプロンプト入力と組み合わせると、正解率が向上します。画像マスクファイルは、以下のパラメータに準拠している必要があります。

  • マスク画像の値は 0 (黒) または 255 (白) でなければなりません。値が 0 の画像マスク領域は、ユーザープロンプトによる画像または入力画像で再生成されます。

  • maskImage フィールドは Base64 でエンコードされた画像文字列である必要があります。

  • マスク画像は、入力画像と同じ寸法 (高さと幅が同じ) である必要があります。

  • 入力画像とマスク画像には PNG または JPG ファイルのみを使用できます。

  • マスク画像には白黒のピクセル値のみを使用する必要があります。

  • マスク画像では RGB チャネルのみを使用できます (アルファチャネルはサポートされていません)。

Amazon Titan Image Generator プロンプトエンジニアリングの詳細については、「Amazon Titan Image Generator G1 models Prompt Engineering Best Practices」を参照してください。

一般的なプロンプトエンジニアリングガイドラインについては、「プロンプトエンジニアリングガイドライン」を参照してください。