Amazon Titan Text Embeddings 模型 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Titan Text Embeddings 模型

Amazon Em Titan beddings 文本模型包括 Amazon T Titan ext Embeddings v2 和 Titan 文本嵌入 G1 模型。

文本嵌入表示非结构化文本(例如文档、段落和句子)的有意义的向量表示形式。您可以输入文本正文,输出为 (1 x n) 向量。嵌入向量适用于各种应用程序。

Amazon Titan Text Embedding v2 模型 (amazon.titan-embed-text-v2:0) 最多可以吸收 8,192 个代币,并输出 1,024 个维度的向量。该模型还支持100多种不同的语言。该模型针对文本检索任务进行了优化,但也可以执行其他任务,例如语义相似度和聚类。Amazon Titan Embeddings 文本 v2 也支持长文档,但是,对于检索任务,建议将文档分成逻辑段,例如段落或章节。

Amazon Titan Embeddings 模型为文档、段落和句子生成有意义的语义表示。Amazon Titan 文本嵌入将文本正文作为输入并生成 n 维向量。Amazon Titan 文本嵌入通过延迟优化的端点调用 [链接] 提供,可加快搜索速度(建议在检索步骤中使用),并通过吞吐量优化的批处理作业 [链接] 来加快索引速度。

Amazon Titan Embedding Text v2 模型支持以下语言:英语、德语、法语、西班牙语、日语、中文、印地语、阿拉伯语、意大利语、葡萄牙语、瑞典语、韩语、希伯来语、捷克语、土耳其语、他加禄语、俄语、荷兰语、波兰语、泰米尔语、马拉地语、马拉雅拉姆语、泰卢固语、卡纳达语、越南语、印度尼西亚语、波斯语、匈牙利语、现代希腊语、罗马尼亚语、丹麦语、泰语芬兰语、斯洛伐克语、乌克兰语、挪威语、芬兰语、斯洛伐克语、乌克兰语、挪威语、保加利亚语、加泰罗尼亚语、塞尔维亚语、克罗地亚语、立陶宛语、斯洛文尼亚语、爱沙尼亚语、拉丁语、孟加拉语、拉脱维亚语、马来语、波斯尼亚语、阿尔巴尼亚语、阿塞拜疆语、加利西亚语、冰岛语、格鲁吉亚语、格鲁吉亚语、马其顿语、巴斯克语、亚美尼亚语、尼泊尔语、乌尔都语、哈萨克语、蒙古语、白俄罗斯语、乌兹别克语、高棉语、挪威语尼诺斯克语、古吉拉特语、缅甸语、威尔士语、世界语、僧伽罗语、鞑靼语、斯瓦希里语、南非荷兰语、爱尔兰语、旁遮普语、库尔德语、吉尔吉斯语、塔吉克语、奥里亚语、老挝语、法罗语、马耳他语、索马里语、卢森堡语、阿姆哈拉语、奥西坦语、爪哇语、豪萨语、普什图语、梵语、西弗里斯兰语、马达加斯语、阿萨姆语、巴什基尔语、布列塔尼语、瓦雷语(菲律宾)、土库曼语、科西嘉语、迪维希语、宿雾语、基尼亚卢旺达语、海地语、意第绪语、信德语、祖鲁语、苏格兰盖尔语、藏语、维吾尔语、毛利语、藏语、维吾尔语、毛利语、罗曼什语、科萨语、巽他语、约鲁巴语。

注意

Amazon Titan 文本嵌入 v2 模型和 Titan Text Embeddings v1 模型不支持推理参数,例如或。maxTokenCount topP

Amazon Titan 文本嵌入 V2 模型

  • 模型 IDamazon.titan-embed-text-v2:0

  • 最大输入文本标记 — 8,192

  • 语言-英语(预览中有 100 多种语言)

  • 最大输入图像大小 – 5 MB

  • 输出向量大小 – 1,024(默认)、384、256

  • 推理类型 – 按需吞吐量、预调配吞吐量

  • 支持的用例 — RAG 文档搜索、重新排名、分类等

注意

Titan Text Embeddings V2 将一个包含最多 8,192 个标记的非空字符串作为输入。英语中的字符与令牌的比率为每个标记 4.7 个字符。虽然 Titan Text Embeddings V1 和 Titan Text Embeddings V2 最多可以容纳 8,192 个标记,但建议将文档分成逻辑段(例如段落或章节)。

要使用文本或图像嵌入模型,请将Invoke ModelAPI操作与amazon.titan-embed-text-v1或一起使用amazon.titan-embed-image-v1model Id并在响应中检索嵌入对象。

查看 Jupyter 笔记本示例:

  1. 在家中登录 Amazon Bedrock https://console.aws.amazon.com/bedrock/ 主机。

  2. 从左侧菜单中,选择基础模型

  3. 向下滚动并选择 Amazon Titan Embeddings G1 - Text 型号

  4. Amazon Titan Embeddings G1 - Text 选项卡(取决于您选择的型号)中,选择查看示例笔记本以查看嵌入式示例笔记本。

有关为多模态训练准备数据集的更多信息,请参阅准备数据集