翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
データセットを準備する
モデルカスタマイズジョブを開始する前に、トレーニングデータセットを最低限準備する必要があります。検証データセットがサポートされているかどうか、トレーニングデータセットと検証データセットの形式は、次の要因によって異なります。
微調整と継続的なトレーニング前データ形式のモデルサポート
次の表は、各モデルでサポートされている微調整および継続的なトレーニング前データ形式の詳細を示しています。
モデル名 |
微調整:Text-to-text |
微調整: Text-to-image & Image-to-embeddings |
継続的な事前トレーニング:Text-to-text |
微調整: シングルターンメッセージング |
微調整: マルチターンメッセージング |
Amazon Titan Text G1 - Express |
可能 |
いいえ |
はい |
いいえ |
なし |
Amazon Titan Text G1 - Lite |
可能 |
いいえ |
はい |
いいえ |
なし |
Amazon Titan Text Premier |
可能 |
いいえ |
いいえ |
いいえ |
なし |
Amazon Titan Image Generator G1 V1 |
あり |
はい |
いいえ |
いいえ |
なし |
Amazon Titan Multimodal Embeddings G1 G1 |
あり |
はい |
いいえ |
いいえ |
いいえ |
Anthropic Claude 3 Haiku |
いいえ |
いいえ |
いいえ |
はい |
はい |
Cohere Command |
はい |
いいえ |
いいえ |
いいえ |
いいえ |
Cohere Command Light |
はい |
いいえ |
いいえ |
いいえ |
なし |
Meta Llama 2 13B |
可能 |
いいえ |
いいえ |
いいえ |
なし |
Meta Llama 2 70B |
可能 |
いいえ |
いいえ |
いいえ |
なし |
さまざまなモデルのカスタマイズに使用されるトレーニングデータセットと検証データセットに適用されるデフォルトのクォータを確認するには、「」の「Amazon Bedrock エンドポイントとクォータのトレーニングレコードと検証レコードのクォータの合計」を参照してください AWS 全般のリファレンス。 https://docs.aws.amazon.com/general/latest/gr/bedrock.html
カスタムモデルのトレーニングデータセットと検証データセットを準備する
カスタムモデルのトレーニングデータセットと検証データセットを準備するには、.jsonl
ファイルを作成します。各行はレコードに対応するJSONオブジェクトです。作成するファイルは、選択したカスタマイズ方法とモデルの形式に準拠し、その中のレコードはサイズ要件に準拠している必要があります。
形式は、カスタマイズ方法とモデルの入出力モダリティによって異なります。選択した方法に対応するタブを選択し、ステップに従います。
- Fine-tuning: Text-to-text
-
モデルの場合は text-to-text、トレーニングデータセットとオプションの検証データセットを準備します。各JSONオブジェクトは、 フィールドprompt
と completion
フィールドの両方を含むサンプルです。トークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
次に、質問応答タスクの項目の例を示します。
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
または image-to-embedding text-to-imageモデルの場合は、トレーニングデータセットを準備します。検証データセットはサポートされていません。各JSONオブジェクトは、 image-ref
、イメージURIの Amazon S3、イメージのプロンプトとなるcaption
可能性のある を含むサンプルです。
イメージは JPEGまたは PNG形式である必要があります。
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
以下にサンプル項目を示します。
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Amazon Bedrock がイメージファイルにアクセスできるようにするには、 で設定した、またはコンソールで自動的に設定された Amazon Bedrock モデルのカスタマイズサービスロールトレーニングファイルや検証ファイルにアクセスし、S3 に出力ファイルを書き込む権限に、 のようなIAMポリシーを追加します。トレーニングデータセットで指定する Amazon S3 パスは、ポリシーで指定するフォルダに存在する必要があります。
- Continued Pre-training: Text-to-text
-
モデルで継続的な事前トレーニングを実行するには、トレーニングデータセットとオプションの検証データセットを準備します text-to-text。継続的な事前トレーニングにはラベル付けされていないデータが含まれるため、各JSON行は input
フィールドのみを含むサンプルです。トークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。
{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}
以下は、トレーニングデータに含まれる可能性のある項目の例です。
{"input": "AWS stands for Amazon Web Services"}
- Fine-tuning: Single-turn messaging
-
シングルターンメッセージング形式を使用してモデルを微調整するには、トレーニングデータセットとオプションの検証データセットを準備します text-to-text。両方のデータファイルは JSONL形式である必要があります。各行は json 形式で完全なデータサンプルを指定します。各データサンプルは 1 行にフォーマットする必要があります (各サンプル内のすべての「\n」を削除してください)。複数のデータサンプルを持つ 1 行、または複数の行にデータサンプルを分割しても機能しません。
フィールド
ルール
-
messages
配列には 2 つのメッセージが含まれている必要があります
-
最初のメッセージには role
のユーザーが必要です
-
最後のメッセージにはアシスタントrole
の が必要です
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
例
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
- Fine-tuning: Multi-turn messaging
-
マルチターンメッセージング形式を使用してモデルを微調整するには、トレーニングデータセットとオプションの検証データセットを準備します text-to-text。両方のデータファイルは JSONL形式である必要があります。各行は json 形式で完全なデータサンプルを指定します。各データサンプルは 1 行にフォーマットする必要があります (各サンプル内のすべての「\n」を削除してください)。複数のデータサンプルを持つ 1 行、または複数の行にデータサンプルを分割しても機能しません。
フィールド
ルール
-
messages
配列には 2 つのメッセージが含まれている必要があります
-
最初のメッセージには role
のユーザーが必要です
-
最後のメッセージにはアシスタントrole
の が必要です
-
メッセージは ロールuser
と assistant
ロールの間で交互にする必要があります。
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
例
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
タブを選択すると、モデルのトレーニングデータセットと検証データセットの要件が表示されます。
- Amazon Titan Text Premier
-
説明 |
最大 (微調整) |
バッチサイズが 1 の場合の入力トークンと出力トークンの合計 |
4,096 |
バッチサイズが 2、3、または 4 の場合の入出力トークンの合計 |
該当なし |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
トレーニングデータセットのファイルサイズ |
1 GB |
検証データセットのファイルサイズ |
100 MB |
- Amazon Titan Text G1 - Express
-
説明 |
最大 (継続的な事前トレーニング) |
最大 (微調整) |
バッチサイズが 1 の場合の入力トークンと出力トークンの合計 |
4,096 |
4,096 |
バッチサイズが 2、3、または 4 の場合の入出力トークンの合計 |
2,048 |
2,048 |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
トークンクォータ x 6 |
トレーニングデータセットのファイルサイズ |
10 GB |
1 GB |
検証データセットのファイルサイズ |
100 MB |
100 MB |
- Amazon Titan Text G1 - Lite
-
説明 |
最大 (継続的な事前トレーニング) |
最大 (微調整) |
バッチサイズが 1 または 2 の場合の入出力トークンの合計 |
4,096 |
4,096 |
バッチサイズが 3、4、5、または 6 の場合の入出力トークンの合計 |
2,048 |
2,048 |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
トークンクォータ x 6 |
トレーニングデータセットのファイルサイズ |
10 GB |
1 GB |
検証データセットのファイルサイズ |
100 MB |
100 MB |
- Amazon Titan Image Generator G1 V1
-
説明 |
最小 (微調整) |
最大 (微調整) |
トレーニングサンプルのテキストプロンプトの長さ、文字単位 |
3 |
1,024 |
トレーニングデータセット内のレコード |
5 |
10,000 |
入力イメージサイズ |
0 |
50 MB |
入力イメージの高さをピクセル単位で表示 |
512 |
4,096 |
ピクセル単位での入力イメージ幅 |
512 |
4,096 |
入力イメージの合計ピクセル |
0 |
12,582,912 |
入力イメージのアスペクト比 |
1:4 |
4:1 |
- Amazon Titan Multimodal Embeddings G1
-
説明 |
最小 (微調整) |
最大 (微調整) |
トレーニングサンプルのテキストプロンプトの長さ、文字単位 |
0 |
2,560 |
トレーニングデータセット内のレコード |
1,000 |
500,000 |
入力イメージサイズ |
0 |
5 MB |
入力イメージの高さをピクセル単位で表示 |
128 |
4096 |
ピクセル単位での入力イメージ幅 |
128 |
4096 |
入力イメージの合計ピクセル |
0 |
12,528,912 |
入力イメージのアスペクト比 |
1:4 |
4:1 |
- Cohere Command
-
説明 |
最大 (微調整) |
入力トークン |
4,096 |
出力トークン |
2,048 |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
トレーニングデータセット内のレコード |
10,000 |
検証データセット内のレコード |
1,000 |
- Meta Llama 2
-
説明 |
最大 (微調整) |
入力トークン |
4,096 |
出力トークン |
2,048 |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |