Amazon Titan Multimodal Embeddings G1 モデル

Amazon Titan Foundation Models は大規模なデータセットで事前トレーニングされているため、強力で汎用的なモデルになります。そのまま使用するか、大量のデータに注釈を付けずに、特定のタスクの独自のデータでモデルを微調整してカスタマイズします。

Titan モデルには、埋め込み、テキスト生成、イメージ生成の 3 種類があります。

2 つの Titan Multimodal Embeddings G1 モデル。Titan Multimodal Embeddings G1 モデルは、テキスト入力 (単語、フレーズ、場合によっては大きなテキスト単位) を、テキストの意味を含む数値表現 (埋め込みと呼ばれます) に変換します。このモデルはテキストを生成しませんが、パーソナライゼーションや検索などのアプリケーションに役立ちます。埋め込みを比較することで、モデルは単語マッチングよりも関連性が高くコンテキストに応じたレスポンスを生成します。マルチモーダル埋め込み G1 モデルは、テキスト、類似点の画像、またはテキストと画像の組み合わせによる画像の検索などのユースケースに使用されます。入力イメージまたはテキストを、同じセマンティック空間内のイメージとテキストの両方のセマンティック意味を含む埋め込みに変換します。

Titan Text モデルは、要約、テキスト生成、分類、オープンエンド QnA 、情報抽出などのタスクLLMsの生成です。また、さまざまなプログラミング言語や、テーブル、、JSON.csv ファイルなどのリッチテキスト形式でもトレーニングされています。

Amazon Titan マルチモーダル埋め込みモデル G1 - テキストモデル

モデル ID – amazon.titan-embed-image-v1
最大入力テキストトークン – 256
言語 – 英語
最大入力イメージサイズ – 25 MB
出力ベクトルサイズ – 1,024 (デフォルト)、384、256
推論タイプ – オンデマンド、プロビジョンドスループット
サポートされているユースケース – 検索、レコメンデーション、パーソナライゼーション。

Titan Text Embeddings V1 は、最大 8,192 個のトークンを含む空でない文字列を入力として受け取り、1,024 次元の埋め込みを返します。英語の文字とトークンの比率は 4.6 文字/トークンです。RAG ユースケースに関する注意: Titan Text Embeddings V2 は最大 8,192 個のトークンに対応できますが、ドキュメントを論理セグメント (段落やセクションなど) にセグメント化することをお勧めします。

埋め込みの長さ

埋め込みの長さのカスタム設定は任意です。埋め込みのデフォルトの長さは 1,024 文字で、ほとんどのユースケースで使うことができます。埋め込みの長さは 256 文字、384 文字、または 1,024 文字に設定できます。埋め込みサイズを大きくすると、より詳細なレスポンスが得られますが、処理時間も長くなります。埋め込みの長さを短くすると詳細度は低くなりますが、応答時間は短くなります。



    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': int // Optional, One of: [256, 384, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })

ファインチューニング

Amazon への入力 Titan Multimodal Embeddings G1 微調整は画像とテキストのペアです。
イメージ形式: PNG、 JPEG
入力イメージサイズ制限: 25 MB
画像サイズ: 最小: 256 px、最大: 4,096 px
キャプション内のトークンの最大数: 128
トレーニングデータセットのサイズ範囲: 1,000～500,000
検証データセットのサイズ範囲: 8～50,000
キャプションの長さ (文字数): 0～2,560
画像あたりの最大合計ピクセル数: 2,048*2,048*3
アスペクト比 (幅/高さ): 最小: 0.25、最大: 4

データセットの準備

トレーニングデータセットには、複数のJSON行を含む.jsonlファイルを作成します。各JSON行には、Sagemaker Augmented Manifest 形式と同様の image-refと caption 属性の両方が含まれます。検証データセットが必要です。自動キャプションは現在サポートされていません。



   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

トレーニングデータセットと検証データセットの両方について、複数のJSON行を含む.jsonlファイルを作成します。

Amazon S3 パスは、Amazon Bedrock サービスロールにIAMポリシーをアタッチして Amazon Bedrock がデータにアクセスするためのアクセス許可を付与したフォルダにある必要があります。トレーニングデータのIAMポリシーの付与の詳細については、「トレーニングデータへのアクセスをカスタムジョブに付与する」を参照してください。

ハイパーパラメータ

これらの値は Multimodal Embeddings モデルのハイパーパラメータに合わせて調整できます。デフォルト値は、ほとんどのユースケースで十分に機能します。

学習率 - (最小/最大学習率) – デフォルト: 5.00E-05、最小: 5.00E-08、最大: 1
バッチサイズ - 有効バッチサイズ - デフォルト: 576、最小: 256、最大: 9,216
最大エポック数 – デフォルト:「自動」、最小: 1、最大: 100

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon Titan Text Embeddings

Amazon Titan Image Generator G1 モデル