Amazon Titan Multimodal Embeddings G1 模型 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Titan Multimodal Embeddings G1 模型

Amazon Titan Foundation Models 已針對大型資料集進行預先訓練,使其成為功能強大且通用的模型。按原樣使用,或針對特定任務使用您自己的資料微調模型,而不會註釋大量資料。

Titan 模型有三種類型:內嵌、文字產生和影像產生。

有兩個 Titan Multimodal Embeddings G1 模型。Titan Multimodal Embeddings G1 模型會將文字輸入 (單字、片語或可能較大的文字單位) 轉譯為數字表示法 (稱為內嵌),其中包含文字的語意意義。雖然此模型不會產生文字,但對於個人化和搜尋等應用程式很有用。透過比較內嵌,模型會產生比字詞比對更相關且內容相關的回應。多模式嵌入 G1 模型用於使用案例,例如依文字、影像相似性或文字和影像的組合搜尋影像。它會將輸入影像或文字轉換為內嵌,其中包含相同語意空間中影像和文字的語意意義。

Titan Text 模型LLMs對於摘要、文字產生、分類、開放式 QnA 和資訊擷取等任務而言是生成的。他們也接受許多不同程式設計語言的訓練,以及豐富的文字格式,例如資料表JSON、 和 .csv 檔案,以及其他格式。

Amazon Titan 多模式嵌入模型 G1 - 文字模型

  • 模型 IDamazon.titan-embed-image-v1

  • 最大輸入文字權杖 – 256

  • 語言 — 英文

  • 最大輸入映像大小 – 25 MB

  • 輸出向量大小 – 1,024 (預設值)、384、256

  • 推論類型 — 隨需、佈建的輸送量

  • 支援的使用案例 – 搜尋、建議和個人化。

Titan Text Embeddings V1 以輸入最多 8,192 個字符的非空白字串,並傳回 1,024 個維度內嵌。英文字元對字符比率為 4.6 個字元/字符。RAG 使用案例的備註:雖然 Titan Text Embeddings V2 最多可容納 8,192 個字符,但我們建議將文件分割為邏輯區段 (例如段落或區段)。

內嵌長度

設定自訂內嵌長度是選擇性的。內嵌的預設長度為 1024 個字元,適用於大多數使用案例。內嵌長度可以設定為 256、384 或 1024 個字元。較大的內嵌大小會產生更詳細的回應,但也會增加運算時間。較短的內嵌長度較不詳細,但會縮短回應時間。

# EmbeddingConfig Shape { 'outputEmbeddingLength': int // Optional, One of: [256, 384, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })

微調

  • Amazon 的輸入 Titan Multimodal Embeddings G1 微調是影像文字對。

  • 影像格式:PNG、 JPEG

  • 輸入映像大小限制:25 MB

  • 影像維度:最小值:256 px,最大值:4,096 px

  • 字幕中字符數量上限:128

  • 訓練資料集大小範圍:1000 - 500,000

  • 驗證資料集大小範圍:8 - 50,000

  • 字幕長度 (以字元為單位):0 - 2,560

  • 每張影像的總像素數上限:2048*2048*3

  • 長寬比 (w/h):最小:0.25,最大:4

準備資料集

針對訓練資料集,建立具有多JSON行.jsonl的檔案。每JSON行都包含與 Sagemaker 增強型清單格式 類似的 image-refcaption 屬性。驗證資料集是必要的。目前不支援自動字幕。

{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

對於訓練和驗證資料集,您將建立具有多JSON行.jsonl的檔案。

Amazon S3 路徑必須位於您已提供 Amazon Bedrock 許可的相同資料夾中,才能透過將IAM政策連接至您的 Amazon Bedrock 服務角色來存取資料。如需授予訓練資料IAM政策的詳細資訊,請參閱授予訓練資料的自訂任務存取權。

超參數

這些值可以針對 Multimodal Embeddings 模型超參數進行調整。預設值適用於大多數使用案例。

  • 學習率 - (最小/最大學習速率) — 預設:5.00E-05,最小值:5.00E-08,最大值:1

  • 批次大小 - 有效批次大小 — 預設值:576,最小值:256,最大值:9,216

  • 最大 epoch — 預設值:"auto",最小值:1,最大值:100