Amazon Titan Multimodal Embeddings G1 模型

Amazon Titan 基礎模型 (FM) 是經過在大型資料集上預先訓練，使其成為功能強大的通用模型。這些模型依原狀使用，或可針對特定任務使用您自己的資料微調模型來最佳化，而無需註釋大量資料。

Titan 模型有三種類型：嵌入、文字產生和影像產生。

有兩種 Titan Multimodal Embeddings G1 模型。Titan 多模態嵌入 G1 模型會將文字輸入 (單字、片語或可能較大的文字單位) 轉譯為數字表示法 (稱為嵌入)，其中包含文字的語意意義。雖然此模型不會產生文字，但對於個人化和搜尋等應用程式很有用。透過比較嵌入，模型會產生比單字符合更相關且上下文更相符的回應。多模態嵌入 G1 模型用於如依文字、影像相似性或文字和影像的組合搜尋影像等使用案例。它會將輸入影像或文字轉譯為嵌入，其中包含相同語意空間中影像和文字的語意意義。

Titan Text 模型是適用於摘要、文字產生、分類、開放式 QnA 和資訊擷取等任務的生成式 LLM。這些模型也經過許多不同程式設計語言的訓練，以及如資料表、JSON 和 .csv 檔案等 RTF 文字格式及其他格式的訓練。

Amazon Titan 多模態嵌入模型 G1

模型 ID – amazon.titan-embed-image-v1
最大輸入文字字符 – 256
語言 — 英文
最大輸入影像大小 – 25 MB
最大輸入影像解析度 – 2048 x 2048 像素
輸出向量大小 – 1,024 (預設值)、384、256
推論類型 — 隨需、佈建的輸送量
支援的使用案例 – 影像搜尋、建議和個人化。

Titan 文本嵌入 V1 採用最多 8,192 個字符的非空白字串做為輸入，並傳回 1,024 個維度嵌入。英文的字元對字符比率為平均 4.7 個字元/字符。RAG 使用案例注意事項：雖然 Titan 文本嵌入 V2 最多可容納 8,192 個字符，但建議將文件分割為邏輯區段 (例如段落或區段)。

內嵌長度

設定自訂內嵌長度是選擇性的。內嵌的預設長度為 1024 個字元，適用於大多數使用案例。內嵌長度可以設定為 256、384 或 1024 個字元。較大的內嵌大小會產生更詳細的回應，但也會增加運算時間。較短的內嵌長度較不詳細，但會縮短回應時間。



    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': int // Optional, One of: [256, 384, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })

微調

Amazon Titan Multimodal Embeddings G1 微調的輸入是影像文字配對。
影像格式：PNG、JPEG
輸入影像大小限制：25 MB
影像維度：最小值：256 px，最大值：4，096 px
字幕中字符數量上限：128
訓練資料集大小範圍：1000 - 500,000
驗證資料集大小範圍：8 - 50,000
字幕長度 (以字元為單位)：0 - 2,560
每張影像的總像素數上限：2048*2048*3
長寬比 (w/h)：最小：0.25，最大：4

準備資料集

有關訓練資料集，請建立具有多重 JSON 行的.jsonl檔案。每一 JSON 行都包含類似於 Sageemaker 增強清單檔案格式的 image-ref 和 caption 屬性。驗證資料集是必要的。目前不支援自動字幕。



   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

對於訓練和驗證資料集，請建立具有多重 JSON 行的.jsonl檔案。

Amazon S3 路徑必須位於您為 Amazon Bedrock 提供許可權的相同資料夾中，以透過將 IAM 政策附加到 Amazon Bedrock 服務角色的方式來存取資料。如需授予用於訓練資料的 IAM 政策的詳細資訊，請參閱授予訓練資料的的自訂任務存取權。

超參數

這些值可以針對 Multimodal Embeddings 模型超參數進行調整。預設值適用於大多數使用案例。

學習率 - (最小/最大學習速率) — 預設：5.00E-05，最小值：5.00E-08，最大值：1
批次大小 - 有效批次大小 — 預設值：576，最小值：256，最大值：9,216
最大 epoch — 預設值："auto"，最小值：1，最大值：100

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

文字內嵌

映像產生器 G1