本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
準備資料集
在開始模型自訂任務之前,您需要至少準備訓練資料集。是否支援驗證資料集,以及訓練和驗證資料集的格式取決於下列因素。
-
自訂任務的類型 (微調或持續預先訓練)。
-
資料的輸入和輸出形式。
模型支援微調和持續的預先訓練資料格式
下表顯示每個個別模型支援的微調和持續預先訓練資料格式的詳細資訊:
模型名稱 |
Fine-tuning:Text-to-text |
微調:Text-to-image和Image-to-embeddings |
微調:文字 + Image-to-Text & 文字 + Video-to-Text |
持續預先訓練:Text-to-text |
微調:單轉訊息 |
微調:多轉訊息 |
Amazon Nova Pro |
是 |
是 |
是 |
否 |
是 |
是 |
Amazon Nova Lite |
是 |
是 |
是 |
否 |
是 |
是 |
Amazon Nova Micro |
是 |
否 |
否 |
否 |
是 |
是 |
Amazon Titan Text G1 - Express |
是 |
否 |
否 |
是 |
否 |
否 |
Amazon Titan Text G1 - Lite |
是 |
否 |
否 |
是 |
否 |
否 |
Amazon Titan Text Premier |
是 |
否 |
否 |
否 |
否 |
否 |
Amazon Titan Image Generator G1 V1 |
是 |
是 |
否 |
否 |
否 |
否 |
Amazon Titan Multimodal Embeddings G1 G1 |
是 |
是 |
否 |
否 |
否 |
否 |
Anthropic Claude 3 Haiku |
否 |
否 |
否 |
否 |
是 |
是 |
Cohere Command |
是 |
否 |
否 |
否 |
否 |
否 |
Cohere Command Light |
是 |
否 |
否 |
否 |
否 |
否 |
Meta Llama 2 13B |
是 |
否 |
否 |
否 |
否 |
否 |
Meta Llama 2 70B |
是 |
否 |
否 |
否 |
否 |
否 |
若要查看用於自訂不同模型的訓練和驗證資料集的預設配額,請參閱 Amazon Bedrock 端點中的訓練和驗證記錄配額總和,以及 中的配額 AWS 一般參考。 https://docs.aws.amazon.com/general/latest/gr/bedrock.html
為您的自訂模型準備訓練和驗證資料集
若要為您的自訂模型準備訓練和驗證資料集,您可以建立 .jsonl
檔案,其中每一行都是對應於記錄的 JSON 物件。您建立的檔案必須符合您選擇的自訂方法和模型的格式,且其中的記錄必須符合大小要求。
格式取決於自訂方法,以及模型的輸入和輸出模式。選擇您偏好方法的索引標籤,然後遵循下列步驟:
- Fine-tuning: Text-to-text
-
對於text-to-text模型,準備訓練和選用的驗證資料集。每個 JSON 物件都是包含 prompt
和 completion
欄位的範例。每個記號使用 6 個字元作為記號數量的近似值。格式如下所示。
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
以下是問答任務的範例項目:
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
對於text-to-image或image-to-embedding模型,準備訓練資料集。不支援驗證資料集。每個 JSON 物件都是範例,其中包含 image-ref
、映像的 Amazon S3 URI,以及caption
可能提示映像的 。
影像必須是 JPEG 或 PNG 格式。
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
以下是範例項目:
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
若要允許 Amazon Bedrock 存取映像檔案,請將類似 中的 IAM 政策新增至您設定或在主控台中自動為您設定的 存取訓練和驗證檔案,以及在 S3 中寫入輸出檔案的權限 Amazon Bedrock 模型自訂服務角色。您在訓練資料集中提供的 Amazon S3 路徑必須位於您在政策中指定的資料夾中。
- Continued Pre-training: Text-to-text
-
若要在text-to-text模型上執行持續的預先訓練,請準備訓練和選用的驗證資料集。由於持續預先訓練涉及未標記的資料,因此每個 JSON 行都是僅包含 input
欄位的範例。每個記號使用 6 個字元作為記號數量的近似值。格式如下所示。
{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}
以下是可能位於訓練資料中的範例項目。
{"input": "AWS stands for Amazon Web Services"}
- Fine-tuning: Single-turn messaging
-
若要使用單轉傳訊格式微調text-to-text模型,請準備訓練和選用的驗證資料集。兩個資料檔案都必須是 JSONL 格式。每一行都指定 json 格式的完整資料範例;而且每個資料範例都必須格式化為 1 行 (移除每個範例中的所有「\n」)。具有多個資料範例的一行或將資料範例分割到多個行將無法運作。
欄位
規則
-
messages
陣列必須包含 2 則訊息
-
第一個訊息必須具有 role
使用者的
-
最後一個訊息必須有 助理role
的
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
範例
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
- Fine-tuning: Multi-turn messaging
-
若要使用多轉傳訊格式微調text-to-text模型,請準備訓練和選用的驗證資料集。兩個資料檔案都必須是 JSONL 格式。每一行都指定 json 格式的完整資料範例;而且每個資料範例都必須格式化為 1 行 (移除每個範例中的所有「\n」)。具有多個資料範例的一行或將資料範例分割到多個行將無法運作。
欄位
規則
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
範例
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
- Distillation
-
若要準備模型蒸餾任務的訓練和驗證資料集,請參閱 Amazon Bedrock Model Distillation 的先決條件。
選取標籤以查看模型的訓練和驗證資料集需求:
- Amazon Nova
-
模型 |
最小範例 |
最大範例 |
內容長度 |
Amazon Nova Micro |
100 |
20k |
32k |
Amazon Nova Lite |
8 |
20k (文件為 10k) |
32k |
Amazon Nova Pro |
100 |
10k |
32k |
影像和影片限制
影像檔案大小上限 |
10 MB |
影片上限 |
每個範例 1 個 |
影片長度或持續時間上限 |
90 秒 |
影片檔案大小上限 |
50 MB |
支援的影像格式 |
PNG、JPEG、GIF、WEBP |
支援的影片格式 |
MOV、MKV、MP4、WEBM |
- Amazon Titan Text Premier
-
描述 |
最大值 (微調) |
批次大小為 1 時,輸入和輸出記號數的總和 |
4,096 |
批次大小為 2、3 或 4 時的輸入和輸出字符總和 |
N/A |
資料集中每個範例的字元配額 |
記號配額 x 6 |
訓練資料集檔案大小 |
1 GB |
驗證資料集檔案大小 |
100 MB |
- Amazon Titan Text G1 - Express
-
描述 |
最大值 (繼續預先訓練) |
最大值 (微調) |
批次大小為 1 時,輸入和輸出記號數的總和 |
4,096 |
4,096 |
批次大小為 2、3 或 4 時的輸入和輸出字符總和 |
2,048 |
2,048 |
資料集中每個範例的字元配額 |
記號配額 x 6 |
記號配額 x 6 |
訓練資料集檔案大小 |
10 GB |
1 GB |
驗證資料集檔案大小 |
100 MB |
100 MB |
- Amazon Titan Text G1 - Lite
-
描述 |
最大值 (繼續預先訓練) |
最大值 (微調) |
批次大小為 1 或 2 時的輸入和輸出字符總和 |
4,096 |
4,096 |
批次大小為 3、4、5 或 6 時的輸入和輸出字符總和 |
2,048 |
2,048 |
資料集中每個範例的字元配額 |
記號配額 x 6 |
記號配額 x 6 |
訓練資料集檔案大小 |
10 GB |
1 GB |
驗證資料集檔案大小 |
100 MB |
100 MB |
- Amazon Titan Image Generator G1 V1
-
描述 |
最小 (微調) |
最大值 (微調) |
訓練範例中的文字提示長度,以字元為單位 |
3 |
1,024 |
訓練資料集中的記錄 |
5 |
10,000 |
輸入影像大小 |
0 |
50 MB |
以像素為單位的輸入影像高度 |
512 |
4,096 |
以像素為單位的輸入影像寬度 |
512 |
4,096 |
輸入影像總像素數 |
0 |
12,582,912 |
輸入影像長寬比 |
1:4 |
4:1 |
- Amazon Titan Multimodal Embeddings G1
-
描述 |
最小 (微調) |
最大值 (微調) |
訓練範例中的文字提示長度,以字元為單位 |
0 |
2,560 |
訓練資料集中的記錄 |
1,000 |
500,000 |
輸入影像大小 |
0 |
5 MB |
以像素為單位的輸入影像高度 |
128 |
4096 |
以像素為單位的輸入影像寬度 |
128 |
4096 |
輸入影像總像素數 |
0 |
12,528,912 |
輸入影像長寬比 |
1:4 |
4:1 |
- Cohere Command
-
描述 |
最大值 (微調) |
輸入字符 |
4,096 |
輸出字符 |
2,048 |
資料集中每個範例的字元配額 |
記號配額 x 6 |
訓練資料集中的記錄 |
10,000 |
驗證資料集中的記錄 |
1,000 |
- Meta Llama 2
-
描述 |
最大值 (微調) |
輸入字符 |
4,096 |
輸出字符 |
2,048 |
資料集中每個範例的字元配額 |
記號配額 x 6 |
- Meta Llama 3.1
-
描述 |
最大值 (微調) |
輸入字符 |
16,000 |
輸出字符 |
16,000 |
資料集中每個範例的字元配額 |
記號配額 x 6 |
如需 Amazon Nova 資料準備準則,請參閱準備 Amazon Nova 資料的準則。