準備資料集

在開始模型自訂任務之前，您需要至少準備訓練資料集。是否支援驗證資料集，以及訓練和驗證資料集的格式取決於下列因素。

自訂任務的類型（微調或持續預先訓練）。
資料的輸入和輸出形式。

模型支援微調和持續的預先訓練資料格式

下表顯示每個個別模型支援的微調和持續預先訓練資料格式的詳細資訊：

模型名稱	Fine-tuning：Text-to-text	微調：Text-to-image和Image-to-embeddings	微調：文字 + Image-to-Text & 文字 + Video-to-Text	持續預先訓練：Text-to-text	微調：單轉訊息	微調：多轉訊息
Amazon Nova Pro	是	是	是	否	是	是
Amazon Nova Lite	是	是	是	否	是	是
Amazon Nova Micro	是	否	否	否	是	是
Amazon Titan Text G1 - Express	是	否	否	是	否	否
Amazon Titan Text G1 - Lite	是	否	否	是	否	否
Amazon Titan Text Premier	是	否	否	否	否	否
Amazon Titan Image Generator G1 V1	是	是	否	否	否	否
Amazon Titan Multimodal Embeddings G1 G1	是	是	否	否	否	否
Anthropic Claude 3 Haiku	否	否	否	否	是	是
Cohere Command	是	否	否	否	否	否
Cohere Command Light	是	否	否	否	否	否
Meta Llama 2 13B	是	否	否	否	否	否
Meta Llama 2 70B	是	否	否	否	否	否

若要查看用於自訂不同模型的訓練和驗證資料集的預設配額，請參閱 Amazon Bedrock 端點中的訓練和驗證記錄配額總和，以及中的配額 AWS 一般參考。 https://docs.aws.amazon.com/general/latest/gr/bedrock.html

為您的自訂模型準備訓練和驗證資料集

若要為您的自訂模型準備訓練和驗證資料集，您可以建立 .jsonl 檔案，其中每一行都是對應於記錄的 JSON 物件。您建立的檔案必須符合您選擇的自訂方法和模型的格式，且其中的記錄必須符合大小要求。

格式取決於自訂方法，以及模型的輸入和輸出模式。選擇您偏好方法的索引標籤，然後遵循下列步驟：

Fine-tuning: Text-to-text

對於text-to-text模型，準備訓練和選用的驗證資料集。每個 JSON 物件都是包含 prompt和 completion 欄位的範例。每個記號使用 6 個字元作為記號數量的近似值。格式如下所示。


{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}

以下是問答任務的範例項目：


{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}

Fine-tuning: Text-to-image & Image-to-embeddings

對於text-to-image或image-to-embedding模型，準備訓練資料集。不支援驗證資料集。每個 JSON 物件都是範例，其中包含 image-ref、映像的 Amazon S3 URI，以及caption可能提示映像的。

影像必須是 JPEG 或 PNG 格式。


{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

以下是範例項目：


{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

若要允許 Amazon Bedrock 存取映像檔案，請將類似中的 IAM 政策新增至您設定或在主控台中自動為您設定的存取訓練和驗證檔案，以及在 S3 中寫入輸出檔案的權限 Amazon Bedrock 模型自訂服務角色。您在訓練資料集中提供的 Amazon S3 路徑必須位於您在政策中指定的資料夾中。

Continued Pre-training: Text-to-text

若要在text-to-text模型上執行持續的預先訓練，請準備訓練和選用的驗證資料集。由於持續預先訓練涉及未標記的資料，因此每個 JSON 行都是僅包含 input 欄位的範例。每個記號使用 6 個字元作為記號數量的近似值。格式如下所示。


{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}

以下是可能位於訓練資料中的範例項目。


{"input": "AWS stands for Amazon Web Services"}

Fine-tuning: Single-turn messaging

若要使用單轉傳訊格式微調text-to-text模型，請準備訓練和選用的驗證資料集。兩個資料檔案都必須是 JSONL 格式。每一行都指定 json 格式的完整資料範例；而且每個資料範例都必須格式化為 1 行（移除每個範例中的所有「\n」)。具有多個資料範例的一行或將資料範例分割到多個行將無法運作。

欄位

system （選用）：包含設定對話內容之系統訊息的字串。
messages ：訊息物件陣列，每個物件都包含：
- role ： user或 assistant
- content ：訊息的文字內容

規則

messages 陣列必須包含 2 則訊息
第一個訊息必須具有 role 使用者的
最後一個訊息必須有助理role的


{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

範例


{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}

Fine-tuning: Multi-turn messaging

若要使用多轉傳訊格式微調text-to-text模型，請準備訓練和選用的驗證資料集。兩個資料檔案都必須是 JSONL 格式。每一行都指定 json 格式的完整資料範例；而且每個資料範例都必須格式化為 1 行（移除每個範例中的所有「\n」)。具有多個資料範例的一行或將資料範例分割到多個行將無法運作。

欄位

system （選用）：包含設定對話內容之系統訊息的字串。
messages ：訊息物件陣列，每個物件都包含：
- role ： user或 assistant
- content ：訊息的文字內容

規則

messages 陣列必須至少包含 2 則訊息
第一個訊息必須具有 role 使用者的
最後一個訊息必須有助理role的
訊息必須在 user和 assistant角色之間交替。


{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

範例


{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

Distillation

若要準備模型蒸餾任務的訓練和驗證資料集，請參閱 Amazon Bedrock Model Distillation 的先決條件。

選取標籤以查看模型的訓練和驗證資料集需求：

Amazon Nova

模型	最小範例	最大範例	內容長度
Amazon Nova Micro	100	20k	32k
Amazon Nova Lite	8	20k （文件為 10k)	32k
Amazon Nova Pro	100	10k	32k

影像和影片限制

影像檔案大小上限	10 MB
影片上限	每個範例 1 個
影片長度或持續時間上限	90 秒
影片檔案大小上限	50 MB
支援的影像格式	PNG、JPEG、GIF、WEBP
支援的影片格式	MOV、MKV、MP4、WEBM

Amazon Titan Text Premier

描述	最大值（微調）
批次大小為 1 時，輸入和輸出記號數的總和	4,096
批次大小為 2、3 或 4 時的輸入和輸出字符總和	N/A
資料集中每個範例的字元配額	記號配額 x 6
訓練資料集檔案大小	1 GB
驗證資料集檔案大小	100 MB

Amazon Titan Text G1 - Express

描述	最大值（繼續預先訓練）	最大值（微調）
批次大小為 1 時，輸入和輸出記號數的總和	4,096	4,096
批次大小為 2、3 或 4 時的輸入和輸出字符總和	2,048	2,048
資料集中每個範例的字元配額	記號配額 x 6	記號配額 x 6
訓練資料集檔案大小	10 GB	1 GB
驗證資料集檔案大小	100 MB	100 MB

Amazon Titan Text G1 - Lite

描述	最大值（繼續預先訓練）	最大值（微調）
批次大小為 1 或 2 時的輸入和輸出字符總和	4,096	4,096
批次大小為 3、4、5 或 6 時的輸入和輸出字符總和	2,048	2,048
資料集中每個範例的字元配額	記號配額 x 6	記號配額 x 6
訓練資料集檔案大小	10 GB	1 GB
驗證資料集檔案大小	100 MB	100 MB

Amazon Titan Image Generator G1 V1

描述	最小（微調）	最大值（微調）
訓練範例中的文字提示長度，以字元為單位	3	1,024
訓練資料集中的記錄	5	10,000
輸入影像大小	0	50 MB
以像素為單位的輸入影像高度	512	4,096
以像素為單位的輸入影像寬度	512	4,096
輸入影像總像素數	0	12，582，912
輸入影像長寬比	1：4	4：1

Amazon Titan Multimodal Embeddings G1

描述	最小（微調）	最大值（微調）
訓練範例中的文字提示長度，以字元為單位	0	2，560
訓練資料集中的記錄	1,000	500,000
輸入影像大小	0	5 MB
以像素為單位的輸入影像高度	128	4096
以像素為單位的輸入影像寬度	128	4096
輸入影像總像素數	0	12，528，912
輸入影像長寬比	1：4	4：1

Cohere Command

描述	最大值（微調）
輸入字符	4,096
輸出字符	2,048
資料集中每個範例的字元配額	記號配額 x 6
訓練資料集中的記錄	10,000
驗證資料集中的記錄	1,000

Meta Llama 2

描述	最大值（微調）
輸入字符	4,096
輸出字符	2,048
資料集中每個範例的字元配額	記號配額 x 6

Meta Llama 3.1

描述	最大值（微調）
輸入字符	16,000
輸出字符	16,000
資料集中每個範例的字元配額	記號配額 x 6

如需 Amazon Nova 資料準備準則，請參閱準備 Amazon Nova 資料的準則。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

模型自訂的先決條件

【選用】使用保護您的模型自訂任務 VPC