准备数据集

在启动模型自定义作业之前，您至少需要准备训练数据集。是否支持验证数据集以及训练数据集和验证数据集的格式取决于以下因素。

自定义作业的类型（微调或持续预训练）。
数据的输入和输出模态。

模型支持的微调和持续预训练数据格式

下表显示了每个相应模型支持的微调和持续预训练数据格式的详细信息：

模型名称	微调:t ext-to-text	微调：& Text-to-image Image-to-embeddings	微调：文本+和文本+视频转文本 Image-to-Text	继续预训练:t ext-to-text	微调：单轮消息收发	微调：多轮消息收发
亚马逊 Nova Pro	支持	是	是	否	是	是
亚马逊 Nova Lite	支持	是	是	否	是	是
亚马逊 Nova Micro	是	否	否	否	是	是
Amazon Titan Text G1 - Express	是	否	否	是	否	否
Amazon Titan Text G1 - Lite	是	否	否	是	否	否
Amazon Titan Text 高级版	是	否	否	否	否	否
Amazon Titan Image Generator G1 V1	支持	是	否	否	否	否
Amazon Titan Multimodal Embeddings G1 G1	支持	是	否	否	否	否
Anthropic Claude 3 Haiku	否	否	否	否	是	是
Cohere Command	是	否	否	否	否	否
Cohere Command Light	是	否	否	否	否	否
Meta Llama 2 13B	是	否	否	否	否	否
Meta Llama 2 70B	是	否	否	否	否	否

要查看用于自定义不同模型的训练数据集和验证数据集的默认配额，请参阅 AWS 一般参考中的 Amazon Bedrock 端点和配额中的训练和验证记录总计配额。

准备用于自定义模型的训练数据集和验证数据集

要为自定义模型准备训练数据集和验证数据集，您需要创建 .jsonl 文件，文件中的每一行都是与记录相对应的 JSON 对象。您创建的文件必须符合您选择的自定义方法和模型的格式要求，并且其中的记录必须符合大小要求。

格式取决于模型的自定义方法以及输入和输出模态。选择您首选方法的选项卡，然后按照以下步骤操作：

Fine-tuning: Text-to-text

对于 text-to-text模型，请准备训练和可选的验证数据集。每个 JSON 对象都是一个样本，其中包含 prompt 和 completion 字段。针对每个令牌使用 6 个字符，作为令牌数量的近似值。格式如下所示。


{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}

以下是问答任务的示例项目：


{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}

Fine-tuning: Text-to-image & Image-to-embeddings

对于 text-to-image我们的 image-to-embedding模型，请准备训练数据集。不支持验证数据集。每个 JSON 对象都是一个样本，其中包含 image-ref（图像的 Amazon S3 URI）和 caption（可作为图像的提示）。

这些图像必须是 JPEG 或 PNG 格式。


{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

以下是示例项目：


{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

要允许 Amazon Bedrock 访问图像文件，请将类似于访问训练文件和验证文件以及在 S3 中写入输出文件的权限中的 IAM 策略的策略添加到您在控制台中设置或系统自动设置的 Amazon Bedrock 模型自定义服务角色。您在训练数据集内提供的 Amazon S3 路径必须位于您在策略中指定的文件夹中。

Continued Pre-training: Text-to-text

要对 text-to-text模型进行持续预训练，请准备训练和可选的验证数据集。因为持续预训练涉及未标记的数据，所以每个 JSON 行都是一个仅包含 input 字段的样本。针对每个令牌使用 6 个字符，作为令牌数量的近似值。格式如下所示。


{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}

以下是训练数据中可能存在的示例项目。


{"input": "AWS stands for Amazon Web Services"}

Fine-tuning: Single-turn messaging

要使用单圈消息格式微调 text-to-text模型，请准备训练和可选的验证数据集。两个数据文件都必须是 JSONL 格式。每行指定一个 json 格式的完整数据样本；每个数据样本必须格式化为 1 行（删除每个样本中的所有“\n”）。一行包含多个数据样本或将数据样本拆分为多行均不可行。

字段

system（可选）：一个包含系统消息的字符串，用于设置对话的上下文。
messages：一个消息对象数组，每个都包含：
- role：user 或 assistant。
- content：消息的文本内容。

规则

messages 数组必须包含 2 条消息
第一条消息必须拥有用户 role
最后一条消息必须有助理 role


{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

示例


{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}

Fine-tuning: Multi-turn messaging

要使用多回合消息格式微调 text-to-text模型，请准备训练和可选的验证数据集。两个数据文件都必须是 JSONL 格式。每行指定一个 json 格式的完整数据样本；每个数据样本必须格式化为 1 行（删除每个样本中的所有“\n”）。一行包含多个数据样本或将数据样本拆分为多行均不可行。

字段

system（可选）：一个包含系统消息的字符串，用于设置对话的上下文。
messages：一个消息对象数组，每个都包含：
- role：user 或 assistant。
- content：消息的文本内容。

规则

messages 数组必须至少包含 2 条消息
第一条消息必须拥有用户 role
最后一条消息必须有助理 role
消息必须在 user 和 assistant 角色之间收发。


{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

示例


{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

Distillation

要为模型提炼作业准备训练和验证数据集，请参阅Amazon 基岩模型蒸馏的先决条件。

选择一个选项卡以查看模型对训练数据集和验证数据集的要求：

Amazon Nova

模型	最少样本	最大样本数	上下文长度
Amazon Nova Micro	100	20k	32k
Amazon Nova Lite	8	20k（文档为 10k）	32k
Amazon Nova Pro	100	10k	32k

图像和视频限制

最大图像文件大小	10MB
最大视频数	每个样本 1 个
最大视频长度或时长	90 秒
最大视频文件大小	50 MB
支持的映像格式	PNG、JPEG、GIF、WEBP
支持的视频格式	MOV、MKV MP4、WEBM

Amazon Titan Text Premier

描述	最大值（微调）
批次大小为 1 时输入和输出令牌数总和	4,096
批次大小为 2、3 或 4 时输入和输出令牌数总和	不适用
数据集中每个样本的字符配额	词元配额 x 6
训练数据集文件大小	1 GB
验证数据集文件大小	100 MB

Amazon Titan Text G1 - Express

描述	最大值（持续预训练）	最大值（微调）
批次大小为 1 时输入和输出令牌数总和	4,096	4,096
批次大小为 2、3 或 4 时输入和输出令牌数总和	2,048	2,048
数据集中每个样本的字符配额	词元配额 x 6	词元配额 x 6
训练数据集文件大小	10 GB	1 GB
验证数据集文件大小	100 MB	100 MB

Amazon Titan Text G1 - Lite

描述	最大值（持续预训练）	最大值（微调）
批次大小为 1 或 2 时输入和输出令牌数总和	4,096	4,096
批次大小为 3、4、5 或 6 时输入和输出令牌数总和	2,048	2,048
数据集中每个样本的字符配额	词元配额 x 6	词元配额 x 6
训练数据集文件大小	10 GB	1 GB
验证数据集文件大小	100 MB	100 MB

Amazon Titan Image Generator G1 V1

描述	最小值（微调）	最大值（微调）
训练样本中的文本提示长度，以字符为单位	3	1024
训练数据集中的记录数	5	10000
输入图像大小	0	50 MB
输入图像的高度（以像素为单位）	512	4,096
输入图像的宽度（以像素为单位）	512	4,096
输入图像总像素数	0	12,582,912
输入图像纵横比	1:4	4:1

Amazon Titan Multimodal Embeddings G1

描述	最小值（微调）	最大值（微调）
训练样本中的文本提示长度，以字符为单位	0	2,560
训练数据集中的记录数	1000	500,000
输入图像大小	0	5MB
输入图像的高度（以像素为单位）	128	4096
输入图像的宽度（以像素为单位）	128	4096
输入图像总像素数	0	12,528,912
输入图像纵横比	1:4	4:1

Cohere Command

描述	最大值（微调）
输入令牌数	4,096
输出令牌数	2,048
数据集中每个样本的字符配额	词元配额 x 6
训练数据集中的记录数	10000
验证数据集中的记录数	1000

Meta Llama 2

描述	最大值（微调）
输入令牌数	4,096
输出令牌数	2,048
数据集中每个样本的字符配额	词元配额 x 6

Meta Llama 3.1

描述	最大值（微调）
输入令牌数	16000
输出令牌数	16000
数据集中每个样本的字符配额	词元配额 x 6

有关 Amazon Nova 数据准备指南，请参阅 Amazon Nova 数据准备指南。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

模型自定义先决条件

[可选] 使用保护您的模型自定义作业 VPC