亚马逊Titan Multimodal Embeddings G1模型

Amazon Titan 基础模型在大型数据集上进行了预训练，使其成为功能强大的通用模型。按原样使用它们，或者通过使用您自己的数据为特定任务微调模型来对其进行自定义，而无需为大量数据添加注释。

Titan 模型有三种类型：嵌入、文本生成和图像生成。

有两种Titan Multimodal Embeddings G1型号。Titan Multimodal Embeddings G1 模型将文本输入（单词、短语或可能的大型文本单元）转换为包含文本语义含义的数字表示形式（称为嵌入）。虽然此模型不会生成文本，但它对个性化和搜索等应用程序很有用。通过比较嵌入式，该模型将产生比单词匹配更相关和更符合上下文的响应。Multimodal Embeddings G1 模型用于使用案例，例如按文本、按图像搜索相似度或按文本和图像的组合搜索图像。它将输入的图像或文本转换为嵌入内容，其中包含相同语义空间中图像和文本的语义含义。

Titan Text 模型是生成式的，LLMs用于摘要、文本生成、分类、开放式 qnA 和信息提取等任务。他们还接受过许多不同的编程语言以及富文本格式（如表格JSON、和.csv 文件等）的培训。

Amazon Titan 多模态嵌入模型 G1-文本模型

模型 ID – amazon.titan-embed-image-v1
最大输入文本标记 — 100
语言-英语（预览中有 25 种以上的语言）
最大输入图像大小 – 5 MB
输出向量大小 – 1,024（默认）、384、256
推理类型 – 按需吞吐量、预调配吞吐量
支持的用例 — RAG 文档搜索、重新排名、分类等

Titan Text Embeddings V1 将一个包含最多 8,192 个标记的非空字符串作为输入，并返回 1,024 维嵌入。英语中的字符与令牌的比率为 4.6 个字符/标记。RAG用例注意事项：虽然 Titan Text Embeddings V2 最多可以容纳 8,192 个标记，但我们建议将文档分成逻辑段（例如段落或章节）。

嵌入长度

可以选择是否设置自定义嵌入长度。嵌入的默认长度为 1024 个字符，适用于大多数用例。嵌入长度可以设置为 256、384 或 1024 个字符。较大的嵌入尺寸会生成更详细的响应，但也会增加计算时间。较短的嵌入长度生成的响应不那么详细，但会缩短响应时间。



    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })

微调

Amazon Titan Multimodal Embeddings G1 微调的输入是图像-文本对。
图像格式：PNG，JPEG
输入图像大小限制：5 MB
图像尺寸：最小 128 像素，最大 4,096 像素
标题中的最大代币数量：100
训练数据集大小范围：1000 - 500,000
验证数据集大小范围：8 - 50,000
字幕长度（以字符为单位）：0 - 2,560
每个图像的最大总像素数：2048*2048*3
纵横比 (w/h)：最小 0.25，最大 4

准备数据集

对于训练数据集，创建一个.jsonl包含多JSON行的文件。每JSON行都包含image-ref和caption属性，类似于 Sagemaker 增强清单格式。需要一个验证数据集。当前不支持自动字幕功能。



   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

对于训练数据集和验证数据集，您将创建包含多JSON行的.jsonl文件。

Amazon S3 路径必须位于您通过将IAM策略附加到您的 Amazon Bedrock 服务角色来向 Amazon Bedrock 提供数据访问权限的文件夹中。有关为训练数据授予IAM策略的更多信息，请参阅向自定义作业授予对您的训练数据的访问权限。

超参数

可以针对 Multimodal Embeddings 模型的超参数调整这些值。默认值适用于大多数用例。

学习速率 -（最小/最大学习速率）– 默认：5.00E-05，最小：5.00E-08，最大：1
批量大小 - 有效批量大小 – 默认：576，最小：256，最大：9,216
最大周期数 – 默认：“auto”，最小：1，最大：100

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

Amazon Titan Text Embeddings

亚马逊 Titan 图像生成器 G1 型号