Amazon Titan Text Embeddings 模型 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Titan Text Embeddings 模型

Amazon Titan 嵌入文本模型包括 Amazon Titan 文本嵌入 v2 和泰坦文本嵌入 G1 模型。

文字內嵌項目代表非結構化文字 (例如文件、段落和句子) 的有意義向量表示法。您輸入文字內文,輸出為 (1 x n) 向量。您可以針對多種應用程式使用內嵌項目向量。

Amazon 泰坦文本嵌入 v2 模型 (amazon.titan-embed-text-v2:0) 最多可以吸入 8,192 個令牌,並輸出 1,024 個維度的向量。該模型還可以使用 100 多種不同的語言。該模型針對文本檢索任務進行了優化,但也可以執行其他任務,例如語義相似性和聚類。Amazon Titan 嵌入文字 v2 也支援長文件,但是,對於擷取任務,建議將文件分割為邏輯區段,例如段落或區段。

Amazon Titan 嵌入模型會對文件、段落和句子產生有意義的語義表示。Amazon Titan 文本嵌入將作為輸入文本主體並生成 n 維向量。Amazon Titan Titan 文字嵌入可透過延遲最佳化端點叫用 [link] 提供,以加快搜尋速度 (在擷取步驟期間建議使用),以及輸送量最佳化批次任務 [link] 以加快索引速度。

Amazon Titan 嵌入文字 v2 模型支援以下語言:英文、德文、法文、西班牙文、日文、印度文、阿拉伯文、義大利文、葡萄牙文、瑞典文、韓文、希伯來文、捷克文、土耳其文、菲律賓文、俄文、荷蘭文、波斯文、波蘭文、波蘭文、泰米爾文、馬拉地文、馬拉雅拉姆文、泰盧固文、卡納達文、越南文、印尼文、波斯文、匈牙利文、現代希臘文、羅馬拉地文、馬拉地文、泰盧固文、卡納達文、越南文、印尼文、波斯文、匈牙利文、現代希臘文塞爾維亞,克羅地亞,立陶宛語,斯洛文尼亞語,愛沙尼亞語,拉丁語,孟加拉語,拉脫維亞語,馬來語,波斯尼亞語,阿塞拜疆,加利西亞語,冰島語,格魯吉亞語,馬其頓語, 巴斯克語, 亞美尼亞語, 尼泊爾語, 烏爾都語, 哈薩克語, 蒙古語, 白俄羅斯語, 烏茲別克語, 高棉語, 挪威尼諾斯克語, 古吉拉特語, 緬甸語, 威爾士語, 世界語, 僧伽羅語, 韃靼克, 斯瓦希里語, 南非荷蘭人, 愛爾蘭語, 班加比, 庫爾德語, 基爾吉斯, 塔吉克, 奧里亞語, 盧森堡, 法羅語, 法羅語, 法羅語, 法馬利語, 索馬里語, 法馬利語, 法羅語, 法馬利語, 法羅語, 法馬里語阿姆哈拉語,奧克語,爪哇語,豪薩語,普什圖,梵語,西弗里西亞語,馬達加斯加,阿薩姆語,巴什基爾,布列塔尼,瓦雷(菲律賓),土庫曼,科西嘉島,迪維希,塞布諾,金亞萬達,海地,意第緒,新德希,祖魯文,烏爾語,蘇格蘭,高利語,蘇格蘭,高利語,西藏,蘇格蘭,高利語,蘇格蘭,高利語,西藏,蘇格蘭,高利語,蘇格蘭,高利語,西藏,蘇格蘭,高利語,蘇格蘭, 羅曼什, 科薩, 巽他人, 約魯巴.

注意

Amazon Titan 文字嵌入 v2 模型和 Titan 文字嵌入 v1 模型不支援推論參數,例如或。maxTokenCount topP

Amazon 泰坦文本嵌入 V2 模型

  • 模型 IDamazon.titan-embed-text-v2:0

  • 最大輸入文本令牌-8,192

  • 語言 — 英語(100 多種語言預覽)

  • 最大輸入影像大小 - 5 MB

  • 輸出向量大小 – 1,024 (預設值)、384、256

  • 推論類型 — 隨需、佈建的輸送量

  • 支援的使用案例 — RAG、文件搜尋、重新排名、分類等

注意

泰坦文本嵌入 V2 需要作為輸入一個非空字符串,最多 8,192 個令牌。英文中的字符與令牌比例為每個令牌 4.7 個字符。雖然 Titan 文字嵌入 V1 和 Titan 文字嵌入 V2 最多可容納 8,192 個記號,但建議將文件分割為邏輯區段 (例如段落或區段)。

若要使用文字或影像嵌入模型,請將Invoke ModelAPI作業與amazon.titan-embed-text-v1amazon.titan-embed-image-v1一起使用,model Id然後擷取回應中的嵌入物件。

若要查看 Jupyter 筆記本範例:

  1. 在家中登錄 Amazon 基岩控制台。 https://console.aws.amazon.com/bedrock/

  2. 從左側功能表中選擇基本模型

  3. 向下滾動並選擇 Amazon Titan Embeddings G1 - Text 模型

  4. Amazon 索Titan Embeddings G1 - Text引標籤 (視您選擇的型號而定) 中,選取 [檢視範例筆記本] 以查看嵌入的範例筆記本。

如需有關準備資料集以進行多模式訓練的詳細資訊,請參閱準備資料集