ファインチューニングと継続的なトレーニング前データ形式のモデルサポートカスタムモデル用のトレーニングデータセットと検証データセットを準備する　

データセットを準備する

モデルカスタムジョブを開始する前に、最低限のトレーニングデータセットを必要があります。検証データセットがサポートされているかどうか、トレーニングデータセットと検証データセットの形式は、次の要因によって異なります。

カスタムジョブのタイプ (ファインチューニングまたは継続的な事前トレーニング)。
データの入力モダリティと出力モダリティ。

ファインチューニングと継続的なトレーニング前データ形式のモデルサポート

次の表は、各モデルでサポートされているファインチューニングおよび継続的なトレーニング前データ形式の詳細を示しています。

モデル名	ファインチューニング: Text-to-text	ファインチューニング: Text-to-image と Image-to-embeddings	ファインチューニング: Text+Image-to-Text & Text+Video-to-Text	継続的な事前トレーニング: Text-to-text	ファインチューニング: シングルターンメッセージング	ファインチューニング: マルチターンメッセージング
Amazon Nova Pro	あり	あり	はい	なし	あり	あり
Amazon Nova Lite	あり	あり	はい	なし	あり	あり
Amazon Nova Micro	あり	いいえ	いいえ	なし	あり	あり
Amazon Titan Text G1 - Express	あり	いいえ	なし	あり	いいえ	いいえ
Amazon Titan Text G1 - Lite	あり	いいえ	なし	あり	いいえ	いいえ
Amazon Titan Text Premier	あり	いいえ	いいえ	いいえ	いいえ	いいえ
Amazon Titan Image Generator G1 V1	あり	はい	いいえ	いいえ	いいえ	いいえ
Amazon Titan Multimodal Embeddings G1 G1	あり	はい	いいえ	いいえ	いいえ	いいえ
Anthropic Claude 3 Haiku	いいえ	いいえ	いいえ	なし	あり	あり
Cohere Command	はい	いいえ	いいえ	いいえ	いいえ	なし
Cohere Command Light	あり	いいえ	いいえ	いいえ	いいえ	いいえ
Meta Llama 2 13B	あり	いいえ	いいえ	いいえ	いいえ	いいえ
Meta Llama 2 70B	あり	いいえ	いいえ	いいえ	いいえ	いいえ

さまざまなモデルのカスタマイズに使用されるトレーニングデータセットと検証データセットに適用されるデフォルトのクォータを確認するには、 AWS 全般のリファレンスの「Amazon Bedrock endpoints and quotas」の「Sum of training and validation records」クオータを参照してください。

カスタムモデル用のトレーニングデータセットと検証データセットを準備する　

トレーニングデータセットと検証データセットをカスタムモデルに準備するには、各行がレコードに対応している JSON オブジェクトの .jsonl ファイルを作成します。作成するファイルは、選択したカスタマイズ方法とモデルの形式に沿っており、その中のレコードは、サイズ要件を満たしている必要があります。

形式は、カスタマイズ方法とモデルの入出力モダリティによって異なります。任意の方法のタブを選択し、ステップに従います。

Fine-tuning: Text-to-text

text-to-text モデルの場合、トレーニングデータセットとオプションの検証データセットを準備します。各 JSON オブジェクトは、prompt フィールドと completion フィールドの両方を含む例です。トークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。


{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}

次に、質問応答タスクの項目の例を示します。


{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}

Fine-tuning: Text-to-image & Image-to-embeddings

text-to-image モデルまたは image-to-embedding モデルの場合は、トレーニングデータセットを準備します。検証データセットはサポートされていません。各 JSON オブジェクトは、画像の Amazon S3 URI である image-ref と、画像のプロンプトとなる可能性がある caption を含むサンプルです。

画像は、PNG または JPEG 形式である必要があります。


{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

以下にサンプル項目を示します。


{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Amazon Bedrock によるイメージファイルへのアクセスを許可するには、自分で設定した、またはコンソールで自動的に設定された Amazon Bedrock モデルカスタマイズサービスロールに、S3 のトレーニングファイルや検証ファイルにアクセスし、出力ファイルを書き込むアクセス許可と同様の IAM ポリシーを追加します。トレーニングデータセットで指定する Amazon S3 パスは、ポリシーで指定するフォルダに存在する必要があります。

Continued Pre-training: Text-to-text

text-to-text モデルで継続的な事前トレーニングを実行するには、トレーニングデータセットとオプションの検証データセットを準備します。継続的な事前トレーニングにはラベル付けされていないデータが含まれるため、各 JSON 行は input フィールドのみを含むサンプルです。トークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。


{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}

以下は、トレーニングデータに含まれる可能性のある項目の例です。


{"input": "AWS stands for Amazon Web Services"}

Fine-tuning: Single-turn messaging

シングルターンメッセージング形式を使用して text-to-text モデルをファインチューニングするには、トレーニングデータセットとオプションの検証データセットを準備します。両方のデータファイルは JSONL 形式である必要があります。各行は JSON 形式で完全なデータサンプルを指定します。各データサンプルは 1 行にフォーマットする必要があります (各サンプル内のすべての「\n」を削除してください)。複数のデータサンプルがある 1 行、または複数の行にデータサンプルを分割しても機能しません。

[フィールド]

system (オプション): 会話のコンテキストを設定するシステムメッセージを含む文字列。
messages: メッセージオブジェクトの配列。それぞれに以下が含まれます。
- role: user または assistant
- content: メッセージのテキストコンテンツ

ルール

messages 配列には 2 つのメッセージが含まれている必要があります
最初のメッセージにはユーザーの role が必要です
最後のメッセージにはアシスタントの role が必要です


{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

例


{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}

Fine-tuning: Multi-turn messaging

マルチターンメッセージング形式を使用して text-to-text モデルをファインチューニングするには、トレーニングデータセットとオプションの検証データセットを準備します。両方のデータファイルは JSONL 形式である必要があります。各行は JSON 形式で完全なデータサンプルを指定します。各データサンプルは 1 行にフォーマットする必要があります (各サンプル内のすべての「\n」を削除してください)。複数のデータサンプルがある 1 行、または複数の行にデータサンプルを分割しても機能しません。

[フィールド]

system (オプション): 会話のコンテキストを設定するシステムメッセージを含む文字列。
messages: メッセージオブジェクトの配列。それぞれに以下が含まれます。
- role: user または assistant
- content: メッセージのテキストコンテンツ

ルール

messages 配列には最低 2 つのメッセージが含まれている必要があります
最初のメッセージにはユーザーの role が必要です
最後のメッセージにはアシスタントの role が必要です
メッセージは、user ロールと assistant ロールを交互に切り替えます。


{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

例


{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

Distillation

モデル抽出ジョブのトレーニングデータセットと検証データセットを準備するには、「」を参照してくださいAmazon Bedrock モデル抽出の前提条件。

タブを選択すると、モデルのトレーニングデータセットと検証データセットの要件が表示されます。

Amazon Nova

モデル	最小サンプル	最大サンプル	コンテキストの長さ
Amazon Nova Micro	100	20 k	32 k
Amazon Nova Lite	8	20k (ドキュメントの場合は 10k)	32 k
Amazon Nova Pro	100	10 k	32 k

イメージとビデオの制約

イメージファイルの最大サイズ	10 MB
最大動画数	サンプルあたり 1
動画の最大長または最大再生時間	90 秒
動画ファイルの最大サイズ	50 MB
対応イメージフォーマット	PNG、JPEG、GIF、WEBP
サポートされているビデオ形式	MOV、MKV、MP4、WEBM

Amazon Titan Text Premier

説明	最大値 (ファインチューニング)
バッチサイズが 1 の場合の入力トークンと出力トークンの合計	4,096
バッチサイズが 2、3 または 4 の場合の入力トークンと出力トークンの合計	該当なし
データセット内のサンプルあたりの文字数クォータ	トークンクォータ x 6
トレーニングデータセットのファイルサイズ	1 GB
検証データセットのファイルサイズ	100 MB

Amazon Titan Text G1 - Express

説明	最大値 (継続的な事前トレーニング)	最大値 (ファインチューニング)
バッチサイズが 1 の場合の入力トークンと出力トークンの合計	4,096	4,096
バッチサイズが 2、3 または 4 の場合の入力トークンと出力トークンの合計	2,048	2,048
データセット内のサンプルあたりの文字数クォータ	トークンクォータ x 6	トークンクォータ x 6
トレーニングデータセットのファイルサイズ	10 GB	1 GB
検証データセットのファイルサイズ	100 MB	100 MB

Amazon Titan Text G1 - Lite

説明	最大値 (継続的な事前トレーニング)	最大値 (ファインチューニング)
バッチサイズが 1 または 2 の場合の入力トークンと出力トークンの合計	4,096	4,096
バッチサイズが 3、4、5 または 6 の場合の入力トークンと出力トークンの合計	2,048	2,048
データセット内のサンプルあたりの文字数クォータ	トークンクォータ x 6	トークンクォータ x 6
トレーニングデータセットのファイルサイズ	10 GB	1 GB
検証データセットのファイルサイズ	100 MB	100 MB

Amazon Titan Image Generator G1 V1

説明	最小 (ファインチューニング)	最大値 (ファインチューニング)
トレーニングサンプルの文字単位のテキストプロンプトの長さ	3	1,024
トレーニングデータセット内のレコード	5	10,000
入力イメージサイズ	0	50 MB
入力イメージのピクセル単位の高さ	512	4,096
入力イメージのピクセル単位の幅	512	4,096
入力イメージのピクセル総数	0	12,582,912
入力イメージのアスペクト比	1:4	4:1

Amazon Titan Multimodal Embeddings G1

説明	最小 (ファインチューニング)	最大値 (ファインチューニング)
トレーニングサンプルの文字単位のテキストプロンプトの長さ	0	2,560
トレーニングデータセット内のレコード	1,000	500,000
入力イメージサイズ	0	5 MB
入力イメージのピクセル単位の高さ	128	4096
入力イメージのピクセル単位の幅	128	4096
入力イメージのピクセル総数	0	12,528,912
入力イメージのアスペクト比	1:4	4:1

Cohere Command

説明	最大値 (ファインチューニング)
入力トークン	4,096
出力トークン	2,048
データセット内のサンプルあたりの文字数クォータ	トークンクォータ x 6
トレーニングデータセット内のレコード	10,000
検証データセット内のレコード	1,000

Meta Llama 2

説明	最大値 (ファインチューニング)
入力トークン	4,096
出力トークン	2,048
データセット内のサンプルあたりの文字数クォータ	トークンクォータ x 6

Meta Llama 3.1

説明	最大値 (ファインチューニング)
入力トークン	16,000
出力トークン	16,000
データセット内のサンプルあたりの文字数クォータ	トークンクォータ x 6

Amazon Nova データ準備ガイドラインについては、「Amazon Nova のデータ準備ガイドライン」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Prerequisites for model customization

〔オプション] を使用してモデルカスタマイズジョブを保護する VPC