準備資料集 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

準備資料集

在開始模型自訂任務之前,您需要至少準備訓練資料集。是否支援驗證資料集,以及訓練和驗證資料集的格式取決於下列因素。

  • 自訂任務的類型 (微調或持續預先訓練)。

  • 資料的輸入和輸出形式。

模型支援微調和持續的預先訓練資料格式

下表顯示每個個別模型支援的微調和持續預先訓練資料格式的詳細資訊:

模型名稱 Fine-tuning:Text-to-text 微調:Text-to-image和Image-to-embeddings 微調:文字 + Image-to-Text & 文字 + Video-to-Text 持續預先訓練:Text-to-text 微調:單轉訊息 微調:多轉訊息
Amazon Nova Pro
Amazon Nova Lite
Amazon Nova Micro
Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite
Amazon Titan Text Premier
Amazon Titan Image Generator G1 V1
Amazon Titan Multimodal Embeddings G1 G1
Anthropic Claude 3 Haiku
Cohere Command
Cohere Command Light
Meta Llama 2 13B
Meta Llama 2 70B

若要查看用於自訂不同模型的訓練和驗證資料集的預設配額,請參閱 Amazon Bedrock 端點中的訓練和驗證記錄配額總和,以及 中的配額 AWS 一般參考。 https://docs.aws.amazon.com/general/latest/gr/bedrock.html

為您的自訂模型準備訓練和驗證資料集

若要為您的自訂模型準備訓練和驗證資料集,您可以建立 .jsonl 檔案,其中每一行都是對應於記錄的 JSON 物件。您建立的檔案必須符合您選擇的自訂方法和模型的格式,且其中的記錄必須符合大小要求。

格式取決於自訂方法,以及模型的輸入和輸出模式。選擇您偏好方法的索引標籤,然後遵循下列步驟:

Fine-tuning: Text-to-text

對於text-to-text模型,準備訓練和選用的驗證資料集。每個 JSON 物件都是包含 promptcompletion 欄位的範例。每個記號使用 6 個字元作為記號數量的近似值。格式如下所示。

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

以下是問答任務的範例項目:

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

對於text-to-image或image-to-embedding模型,準備訓練資料集。不支援驗證資料集。每個 JSON 物件都是範例,其中包含 image-ref、映像的 Amazon S3 URI,以及caption可能提示映像的 。

影像必須是 JPEG 或 PNG 格式。

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

以下是範例項目:

{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

若要允許 Amazon Bedrock 存取映像檔案,請將類似 中的 IAM 政策新增至您設定或在主控台中自動為您設定的 存取訓練和驗證檔案,以及在 S3 中寫入輸出檔案的權限 Amazon Bedrock 模型自訂服務角色。您在訓練資料集中提供的 Amazon S3 路徑必須位於您在政策中指定的資料夾中。

Continued Pre-training: Text-to-text

若要在text-to-text模型上執行持續的預先訓練,請準備訓練和選用的驗證資料集。由於持續預先訓練涉及未標記的資料,因此每個 JSON 行都是僅包含 input 欄位的範例。每個記號使用 6 個字元作為記號數量的近似值。格式如下所示。

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

以下是可能位於訓練資料中的範例項目。

{"input": "AWS stands for Amazon Web Services"}
Fine-tuning: Single-turn messaging

若要使用單轉傳訊格式微調text-to-text模型,請準備訓練和選用的驗證資料集。兩個資料檔案都必須是 JSONL 格式。每一行都指定 json 格式的完整資料範例;而且每個資料範例都必須格式化為 1 行 (移除每個範例中的所有「\n」)。具有多個資料範例的一行或將資料範例分割到多個行將無法運作。

欄位

  • system (選用) :包含設定對話內容之系統訊息的字串。

  • messages :訊息物件陣列,每個物件都包含:

    • roleuserassistant

    • content :訊息的文字內容

規則

  • messages 陣列必須包含 2 則訊息

  • 第一個訊息必須具有 role 使用者的

  • 最後一個訊息必須有 助理role

{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

範例

{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
Fine-tuning: Multi-turn messaging

若要使用多轉傳訊格式微調text-to-text模型,請準備訓練和選用的驗證資料集。兩個資料檔案都必須是 JSONL 格式。每一行都指定 json 格式的完整資料範例;而且每個資料範例都必須格式化為 1 行 (移除每個範例中的所有「\n」)。具有多個資料範例的一行或將資料範例分割到多個行將無法運作。

欄位

  • system (選用) :包含設定對話內容之系統訊息的字串。

  • messages :訊息物件陣列,每個物件都包含:

    • roleuserassistant

    • content :訊息的文字內容

規則

  • messages 陣列必須至少包含 2 則訊息

  • 第一個訊息必須具有 role 使用者的

  • 最後一個訊息必須有 助理role

  • 訊息必須在 userassistant角色之間交替。

{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

範例

{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
Distillation

若要準備模型蒸餾任務的訓練和驗證資料集,請參閱 Amazon Bedrock Model Distillation 的先決條件

選取標籤以查看模型的訓練和驗證資料集需求:

Amazon Nova
模型 最小範例 最大範例 內容長度
Amazon Nova Micro 100 20k 32k
Amazon Nova Lite 8 20k (文件為 10k) 32k
Amazon Nova Pro 100 10k 32k

影像和影片限制

影像檔案大小上限 10 MB
影片上限 每個範例 1 個
影片長度或持續時間上限 90 秒
影片檔案大小上限 50 MB
支援的影像格式 PNG、JPEG、GIF、WEBP
支援的影片格式 MOV、MKV、MP4、WEBM
Amazon Titan Text Premier
描述 最大值 (微調)
批次大小為 1 時,輸入和輸出記號數的總和 4,096
批次大小為 2、3 或 4 時的輸入和輸出字符總和 N/A
資料集中每個範例的字元配額 記號配額 x 6
訓練資料集檔案大小 1 GB
驗證資料集檔案大小 100 MB
Amazon Titan Text G1 - Express
描述 最大值 (繼續預先訓練) 最大值 (微調)
批次大小為 1 時,輸入和輸出記號數的總和 4,096 4,096
批次大小為 2、3 或 4 時的輸入和輸出字符總和 2,048 2,048
資料集中每個範例的字元配額 記號配額 x 6 記號配額 x 6
訓練資料集檔案大小 10 GB 1 GB
驗證資料集檔案大小 100 MB 100 MB
Amazon Titan Text G1 - Lite
描述 最大值 (繼續預先訓練) 最大值 (微調)
批次大小為 1 或 2 時的輸入和輸出字符總和 4,096 4,096
批次大小為 3、4、5 或 6 時的輸入和輸出字符總和 2,048 2,048
資料集中每個範例的字元配額 記號配額 x 6 記號配額 x 6
訓練資料集檔案大小 10 GB 1 GB
驗證資料集檔案大小 100 MB 100 MB
Amazon Titan Image Generator G1 V1
描述 最小 (微調) 最大值 (微調)
訓練範例中的文字提示長度,以字元為單位 3 1,024
訓練資料集中的記錄 5 10,000
輸入影像大小 0 50 MB
以像素為單位的輸入影像高度 512 4,096
以像素為單位的輸入影像寬度 512 4,096
輸入影像總像素數 0 12,582,912
輸入影像長寬比 1:4 4:1
Amazon Titan Multimodal Embeddings G1
描述 最小 (微調) 最大值 (微調)
訓練範例中的文字提示長度,以字元為單位 0 2,560
訓練資料集中的記錄 1,000 500,000
輸入影像大小 0 5 MB
以像素為單位的輸入影像高度 128 4096
以像素為單位的輸入影像寬度 128 4096
輸入影像總像素數 0 12,528,912
輸入影像長寬比 1:4 4:1
Cohere Command
描述 最大值 (微調)
輸入字符 4,096
輸出字符 2,048
資料集中每個範例的字元配額 記號配額 x 6
訓練資料集中的記錄 10,000
驗證資料集中的記錄 1,000
Meta Llama 2
描述 最大值 (微調)
輸入字符 4,096
輸出字符 2,048
資料集中每個範例的字元配額 記號配額 x 6
Meta Llama 3.1
描述 最大值 (微調)
輸入字符 16,000
輸出字符 16,000
資料集中每個範例的字元配額 記號配額 x 6

如需 Amazon Nova 資料準備準則,請參閱準備 Amazon Nova 資料的準則