亚马逊Titan Multimodal Embeddings G1模型 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊Titan Multimodal Embeddings G1模型

Amazon Titan 基础模型在大型数据集上进行了预训练,使其成为功能强大的通用模型。按原样使用它们,或者通过使用您自己的数据为特定任务微调模型来对其进行自定义,而无需为大量数据添加注释。

Titan 模型有三种类型:嵌入、文本生成和图像生成。

有两种Titan Multimodal Embeddings G1型号。Titan Multimodal Embeddings G1 模型将文本输入(单词、短语或可能的大型文本单元)转换为包含文本语义含义的数字表示形式(称为嵌入)。虽然此模型不会生成文本,但它对个性化和搜索等应用程序很有用。通过比较嵌入式,该模型将产生比单词匹配更相关和更符合上下文的响应。Multimodal Embeddings G1 模型用于使用案例,例如按文本、按图像搜索相似度或按文本和图像的组合搜索图像。它将输入的图像或文本转换为嵌入内容,其中包含相同语义空间中图像和文本的语义含义。

Titan Text 模型是生成式的,LLMs用于摘要、文本生成、分类、开放式 qnA 和信息提取等任务。他们还接受过许多不同的编程语言以及富文本格式(如表格JSON、和.csv 文件等)的培训。

Amazon Titan 多模态嵌入模型 G1-文本模型

  • 模型 IDamazon.titan-embed-image-v1

  • 最大输入文本标记 — 100

  • 语言-英语(预览中有 25 种以上的语言)

  • 最大输入图像大小 – 5 MB

  • 输出向量大小 – 1,024(默认)、384、256

  • 推理类型 – 按需吞吐量、预调配吞吐量

  • 支持的用例 — RAG 文档搜索、重新排名、分类等

Titan Text Embeddings V1 将一个包含最多 8,192 个标记的非空字符串作为输入,并返回 1,024 维嵌入。英语中的字符与令牌的比率为 4.6 个字符/标记。RAG用例注意事项:虽然 Titan Text Embeddings V2 最多可以容纳 8,192 个标记,但我们建议将文档分成逻辑段(例如段落或章节)。

嵌入长度

可以选择是否设置自定义嵌入长度。嵌入的默认长度为 1024 个字符,适用于大多数用例。嵌入长度可以设置为 256、384 或 1024 个字符。较大的嵌入尺寸会生成更详细的响应,但也会增加计算时间。较短的嵌入长度生成的响应不那么详细,但会缩短响应时间。

# EmbeddingConfig Shape { 'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })

微调

  • Amazon Titan Multimodal Embeddings G1 微调的输入是图像-文本对。

  • 图像格式:PNG,JPEG

  • 输入图像大小限制:5 MB

  • 图像尺寸:最小 128 像素,最大 4,096 像素

  • 标题中的最大代币数量:100

  • 训练数据集大小范围:1000 - 500,000

  • 验证数据集大小范围:8 - 50,000

  • 字幕长度(以字符为单位):0 - 2,560

  • 每个图像的最大总像素数:2048*2048*3

  • 纵横比 (w/h):最小 0.25,最大 4

准备数据集

对于训练数据集,创建一个.jsonl包含多JSON行的文件。每JSON行都包含image-refcaption属性,类似于 Sagemaker 增强清单格式。需要一个验证数据集。当前不支持自动字幕功能。

{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

对于训练数据集和验证数据集,您将创建包含多JSON行的.jsonl文件。

Amazon S3 路径必须位于您通过将IAM策略附加到您的 Amazon Bedrock 服务角色来向 Amazon Bedrock 提供数据访问权限的文件夹中。有关为训练数据授予IAM策略的更多信息,请参阅向自定义作业授予对您的训练数据的访问权限

超参数

可以针对 Multimodal Embeddings 模型的超参数调整这些值。默认值适用于大多数用例。

  • 学习速率 -(最小/最大学习速率)– 默认:5.00E-05,最小:5.00E-08,最大:1

  • 批量大小 - 有效批量大小 – 默认:576,最小:256,最大:9,216

  • 最大周期数 – 默认:“auto”,最小:1,最大:100