翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
データセットを準備する
モデルカスタムジョブを開始する前に、最低限のトレーニングデータセットを必要があります。検証データセットがサポートされているかどうか、トレーニングデータセットと検証データセットの形式は、次の要因によって異なります。
ファインチューニングと継続的なトレーニング前データ形式のモデルサポート
次の表は、各モデルでサポートされているファインチューニングおよび継続的なトレーニング前データ形式の詳細を示しています。
モデル名 |
ファインチューニング: Text-to-text |
ファインチューニング: Text-to-image と Image-to-embeddings |
ファインチューニング: Text+Image-to-Text & Text+Video-to-Text |
継続的な事前トレーニング: Text-to-text |
ファインチューニング: シングルターンメッセージング |
ファインチューニング: マルチターンメッセージング |
Amazon Nova Pro |
あり |
あり |
はい |
なし |
あり |
あり |
Amazon Nova Lite |
あり |
あり |
はい |
なし |
あり |
あり |
Amazon Nova Micro |
あり |
いいえ |
いいえ |
なし |
あり |
あり |
Amazon Titan Text G1 - Express |
あり |
いいえ |
なし |
あり |
いいえ |
いいえ |
Amazon Titan Text G1 - Lite |
あり |
いいえ |
なし |
あり |
いいえ |
いいえ |
Amazon Titan Text Premier |
あり |
いいえ |
いいえ |
いいえ |
いいえ |
いいえ |
Amazon Titan Image Generator G1 V1 |
あり |
はい |
いいえ |
いいえ |
いいえ |
いいえ |
Amazon Titan Multimodal Embeddings G1 G1 |
あり |
はい |
いいえ |
いいえ |
いいえ |
いいえ |
Anthropic Claude 3 Haiku |
いいえ |
いいえ |
いいえ |
なし |
あり |
あり |
Cohere Command |
はい |
いいえ |
いいえ |
いいえ |
いいえ |
なし |
Cohere Command Light |
あり |
いいえ |
いいえ |
いいえ |
いいえ |
いいえ |
Meta Llama 2 13B |
あり |
いいえ |
いいえ |
いいえ |
いいえ |
いいえ |
Meta Llama 2 70B |
あり |
いいえ |
いいえ |
いいえ |
いいえ |
いいえ |
さまざまなモデルのカスタマイズに使用されるトレーニングデータセットと検証データセットに適用されるデフォルトのクォータを確認するには、 AWS 全般のリファレンスの「Amazon Bedrock endpoints and quotas」の「Sum of training and validation records」クオータを参照してください。
カスタムモデル用のトレーニングデータセットと検証データセットを準備する
トレーニングデータセットと検証データセットをカスタムモデルに準備するには、各行がレコードに対応している JSON オブジェクトの .jsonl
ファイルを作成します。作成するファイルは、選択したカスタマイズ方法とモデルの形式に沿っており、その中のレコードは、サイズ要件を満たしている必要があります。
形式は、カスタマイズ方法とモデルの入出力モダリティによって異なります。任意の方法のタブを選択し、ステップに従います。
- Fine-tuning: Text-to-text
-
text-to-text モデルの場合、トレーニングデータセットとオプションの検証データセットを準備します。各 JSON オブジェクトは、prompt
フィールドと completion
フィールドの両方を含む例です。トークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
次に、質問応答タスクの項目の例を示します。
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
text-to-image モデルまたは image-to-embedding モデルの場合は、トレーニングデータセットを準備します。検証データセットはサポートされていません。各 JSON オブジェクトは、画像の Amazon S3 URI である image-ref
と、画像のプロンプトとなる可能性がある caption
を含むサンプルです。
画像は、PNG または JPEG 形式である必要があります。
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
以下にサンプル項目を示します。
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Amazon Bedrock によるイメージファイルへのアクセスを許可するには、自分で設定した、またはコンソールで自動的に設定された Amazon Bedrock モデルカスタマイズサービスロールに、S3 のトレーニングファイルや検証ファイルにアクセスし、出力ファイルを書き込むアクセス許可 と同様の IAM ポリシーを追加します。トレーニングデータセットで指定する Amazon S3 パスは、ポリシーで指定するフォルダに存在する必要があります。
- Continued Pre-training: Text-to-text
-
text-to-text モデルで継続的な事前トレーニングを実行するには、トレーニングデータセットとオプションの検証データセットを準備します。継続的な事前トレーニングにはラベル付けされていないデータが含まれるため、各 JSON 行は input
フィールドのみを含むサンプルです。トークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。
{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}
以下は、トレーニングデータに含まれる可能性のある項目の例です。
{"input": "AWS stands for Amazon Web Services"}
- Fine-tuning: Single-turn messaging
-
シングルターンメッセージング形式を使用して text-to-text モデルをファインチューニングするには、トレーニングデータセットとオプションの検証データセットを準備します。両方のデータファイルは JSONL 形式である必要があります。各行は JSON 形式で完全なデータサンプルを指定します。各データサンプルは 1 行にフォーマットする必要があります (各サンプル内のすべての「\n」を削除してください)。複数のデータサンプルがある 1 行、または複数の行にデータサンプルを分割しても機能しません。
[フィールド]
ルール
-
messages
配列には 2 つのメッセージが含まれている必要があります
-
最初のメッセージにはユーザーの role
が必要です
-
最後のメッセージにはアシスタントの role
が必要です
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
例
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
- Fine-tuning: Multi-turn messaging
-
マルチターンメッセージング形式を使用して text-to-text モデルをファインチューニングするには、トレーニングデータセットとオプションの検証データセットを準備します。両方のデータファイルは JSONL 形式である必要があります。各行は JSON 形式で完全なデータサンプルを指定します。各データサンプルは 1 行にフォーマットする必要があります (各サンプル内のすべての「\n」を削除してください)。複数のデータサンプルがある 1 行、または複数の行にデータサンプルを分割しても機能しません。
[フィールド]
ルール
-
messages
配列には最低 2 つのメッセージが含まれている必要があります
-
最初のメッセージにはユーザーの role
が必要です
-
最後のメッセージにはアシスタントの role
が必要です
-
メッセージは、user
ロールと assistant
ロールを交互に切り替えます。
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
例
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
- Distillation
-
モデル抽出ジョブのトレーニングデータセットと検証データセットを準備するには、「」を参照してくださいAmazon Bedrock モデル抽出の前提条件。
タブを選択すると、モデルのトレーニングデータセットと検証データセットの要件が表示されます。
- Amazon Nova
-
モデル |
最小サンプル |
最大サンプル |
コンテキストの長さ |
Amazon Nova Micro |
100 |
20 k |
32 k |
Amazon Nova Lite |
8 |
20k (ドキュメントの場合は 10k) |
32 k |
Amazon Nova Pro |
100 |
10 k |
32 k |
イメージとビデオの制約
イメージファイルの最大サイズ |
10 MB |
最大動画数 |
サンプルあたり 1 |
動画の最大長または最大再生時間 |
90 秒 |
動画ファイルの最大サイズ |
50 MB |
対応イメージフォーマット |
PNG、JPEG、GIF、WEBP |
サポートされているビデオ形式 |
MOV、MKV、MP4、WEBM |
- Amazon Titan Text Premier
-
説明 |
最大値 (ファインチューニング) |
バッチサイズが 1 の場合の入力トークンと出力トークンの合計 |
4,096 |
バッチサイズが 2、3 または 4 の場合の入力トークンと出力トークンの合計 |
該当なし |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
トレーニングデータセットのファイルサイズ |
1 GB |
検証データセットのファイルサイズ |
100 MB |
- Amazon Titan Text G1 - Express
-
説明 |
最大値 (継続的な事前トレーニング) |
最大値 (ファインチューニング) |
バッチサイズが 1 の場合の入力トークンと出力トークンの合計 |
4,096 |
4,096 |
バッチサイズが 2、3 または 4 の場合の入力トークンと出力トークンの合計 |
2,048 |
2,048 |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
トークンクォータ x 6 |
トレーニングデータセットのファイルサイズ |
10 GB |
1 GB |
検証データセットのファイルサイズ |
100 MB |
100 MB |
- Amazon Titan Text G1 - Lite
-
説明 |
最大値 (継続的な事前トレーニング) |
最大値 (ファインチューニング) |
バッチサイズが 1 または 2 の場合の入力トークンと出力トークンの合計 |
4,096 |
4,096 |
バッチサイズが 3、4、5 または 6 の場合の入力トークンと出力トークンの合計 |
2,048 |
2,048 |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
トークンクォータ x 6 |
トレーニングデータセットのファイルサイズ |
10 GB |
1 GB |
検証データセットのファイルサイズ |
100 MB |
100 MB |
- Amazon Titan Image Generator G1 V1
-
説明 |
最小 (ファインチューニング) |
最大値 (ファインチューニング) |
トレーニングサンプルの文字単位のテキストプロンプトの長さ |
3 |
1,024 |
トレーニングデータセット内のレコード |
5 |
10,000 |
入力イメージサイズ |
0 |
50 MB |
入力イメージのピクセル単位の高さ |
512 |
4,096 |
入力イメージのピクセル単位の幅 |
512 |
4,096 |
入力イメージのピクセル総数 |
0 |
12,582,912 |
入力イメージのアスペクト比 |
1:4 |
4:1 |
- Amazon Titan Multimodal Embeddings G1
-
説明 |
最小 (ファインチューニング) |
最大値 (ファインチューニング) |
トレーニングサンプルの文字単位のテキストプロンプトの長さ |
0 |
2,560 |
トレーニングデータセット内のレコード |
1,000 |
500,000 |
入力イメージサイズ |
0 |
5 MB |
入力イメージのピクセル単位の高さ |
128 |
4096 |
入力イメージのピクセル単位の幅 |
128 |
4096 |
入力イメージのピクセル総数 |
0 |
12,528,912 |
入力イメージのアスペクト比 |
1:4 |
4:1 |
- Cohere Command
-
説明 |
最大値 (ファインチューニング) |
入力トークン |
4,096 |
出力トークン |
2,048 |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
トレーニングデータセット内のレコード |
10,000 |
検証データセット内のレコード |
1,000 |
- Meta Llama 2
-
説明 |
最大値 (ファインチューニング) |
入力トークン |
4,096 |
出力トークン |
2,048 |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
- Meta Llama 3.1
-
説明 |
最大値 (ファインチューニング) |
入力トークン |
16,000 |
出力トークン |
16,000 |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
Amazon Nova データ準備ガイドラインについては、「Amazon Nova のデータ準備ガイドライン」を参照してください。