データセットを準備する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データセットを準備する

モデルカスタムジョブを開始する前に、最低限のトレーニングデータセットを必要があります。検証データセットがサポートされているかどうか、トレーニングデータセットと検証データセットの形式は、次の要因によって異なります。

  • カスタムジョブのタイプ (ファインチューニングまたは継続的な事前トレーニング)。

  • データの入力モダリティと出力モダリティ。

ファインチューニングと継続的なトレーニング前データ形式のモデルサポート

次の表は、各モデルでサポートされているファインチューニングおよび継続的なトレーニング前データ形式の詳細を示しています。

モデル名 ファインチューニング: Text-to-text ファインチューニング: Text-to-image と Image-to-embeddings ファインチューニング: Text+Image-to-Text & Text+Video-to-Text 継続的な事前トレーニング: Text-to-text ファインチューニング: シングルターンメッセージング ファインチューニング: マルチターンメッセージング
Amazon Nova Pro あり あり はい なし あり あり
Amazon Nova Lite あり あり はい なし あり あり
Amazon Nova Micro あり いいえ いいえ なし あり あり
Amazon Titan Text G1 - Express あり いいえ なし あり いいえ いいえ
Amazon Titan Text G1 - Lite あり いいえ なし あり いいえ いいえ
Amazon Titan Text Premier あり いいえ いいえ いいえ いいえ いいえ
Amazon Titan Image Generator G1 V1 あり はい いいえ いいえ いいえ いいえ
Amazon Titan Multimodal Embeddings G1 G1 あり はい いいえ いいえ いいえ いいえ
Anthropic Claude 3 Haiku いいえ いいえ いいえ なし あり あり
Cohere Command はい いいえ いいえ いいえ いいえ なし
Cohere Command Light あり いいえ いいえ いいえ いいえ いいえ
Meta Llama 2 13B あり いいえ いいえ いいえ いいえ いいえ
Meta Llama 2 70B あり いいえ いいえ いいえ いいえ いいえ

さまざまなモデルのカスタマイズに使用されるトレーニングデータセットと検証データセットに適用されるデフォルトのクォータを確認するには、 AWS 全般のリファレンスの「Amazon Bedrock endpoints and quotas」の「Sum of training and validation records」クオータを参照してください。

カスタムモデル用のトレーニングデータセットと検証データセットを準備する 

トレーニングデータセットと検証データセットをカスタムモデルに準備するには、各行がレコードに対応している JSON オブジェクトの .jsonl ファイルを作成します。作成するファイルは、選択したカスタマイズ方法とモデルの形式に沿っており、その中のレコードは、サイズ要件を満たしている必要があります。

形式は、カスタマイズ方法とモデルの入出力モダリティによって異なります。任意の方法のタブを選択し、ステップに従います。

Fine-tuning: Text-to-text

text-to-text モデルの場合、トレーニングデータセットとオプションの検証データセットを準備します。各 JSON オブジェクトは、prompt フィールドと completion フィールドの両方を含む例です。トークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

次に、質問応答タスクの項目の例を示します。

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

text-to-image モデルまたは image-to-embedding モデルの場合は、トレーニングデータセットを準備します。検証データセットはサポートされていません。各 JSON オブジェクトは、画像の Amazon S3 URI である image-ref と、画像のプロンプトとなる可能性がある caption を含むサンプルです。

画像は、PNG または JPEG 形式である必要があります。

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

以下にサンプル項目を示します。

{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Amazon Bedrock によるイメージファイルへのアクセスを許可するには、自分で設定した、またはコンソールで自動的に設定された Amazon Bedrock モデルカスタマイズサービスロールに、S3 のトレーニングファイルや検証ファイルにアクセスし、出力ファイルを書き込むアクセス許可 と同様の IAM ポリシーを追加します。トレーニングデータセットで指定する Amazon S3 パスは、ポリシーで指定するフォルダに存在する必要があります。

Continued Pre-training: Text-to-text

text-to-text モデルで継続的な事前トレーニングを実行するには、トレーニングデータセットとオプションの検証データセットを準備します。継続的な事前トレーニングにはラベル付けされていないデータが含まれるため、各 JSON 行は input フィールドのみを含むサンプルです。トークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

以下は、トレーニングデータに含まれる可能性のある項目の例です。

{"input": "AWS stands for Amazon Web Services"}
Fine-tuning: Single-turn messaging

シングルターンメッセージング形式を使用して text-to-text モデルをファインチューニングするには、トレーニングデータセットとオプションの検証データセットを準備します。両方のデータファイルは JSONL 形式である必要があります。各行は JSON 形式で完全なデータサンプルを指定します。各データサンプルは 1 行にフォーマットする必要があります (各サンプル内のすべての「\n」を削除してください)。複数のデータサンプルがある 1 行、または複数の行にデータサンプルを分割しても機能しません。

[フィールド]

  • system (オプション): 会話のコンテキストを設定するシステムメッセージを含む文字列。

  • messages: メッセージオブジェクトの配列。それぞれに以下が含まれます。

    • role: user または assistant

    • content: メッセージのテキストコンテンツ

ルール

  • messages 配列には 2 つのメッセージが含まれている必要があります

  • 最初のメッセージにはユーザーの role が必要です

  • 最後のメッセージにはアシスタントの role が必要です

{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
Fine-tuning: Multi-turn messaging

マルチターンメッセージング形式を使用して text-to-text モデルをファインチューニングするには、トレーニングデータセットとオプションの検証データセットを準備します。両方のデータファイルは JSONL 形式である必要があります。各行は JSON 形式で完全なデータサンプルを指定します。各データサンプルは 1 行にフォーマットする必要があります (各サンプル内のすべての「\n」を削除してください)。複数のデータサンプルがある 1 行、または複数の行にデータサンプルを分割しても機能しません。

[フィールド]

  • system (オプション): 会話のコンテキストを設定するシステムメッセージを含む文字列。

  • messages: メッセージオブジェクトの配列。それぞれに以下が含まれます。

    • role: user または assistant

    • content: メッセージのテキストコンテンツ

ルール

  • messages 配列には最低 2 つのメッセージが含まれている必要があります

  • 最初のメッセージにはユーザーの role が必要です

  • 最後のメッセージにはアシスタントの role が必要です

  • メッセージは、user ロールと assistant ロールを交互に切り替えます。

{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
Distillation

モデル抽出ジョブのトレーニングデータセットと検証データセットを準備するには、「」を参照してくださいAmazon Bedrock モデル抽出の前提条件

タブを選択すると、モデルのトレーニングデータセットと検証データセットの要件が表示されます。

Amazon Nova
モデル 最小サンプル 最大サンプル コンテキストの長さ
Amazon Nova Micro 100 20 k 32 k
Amazon Nova Lite 8 20k (ドキュメントの場合は 10k) 32 k
Amazon Nova Pro 100 10 k 32 k

イメージとビデオの制約

イメージファイルの最大サイズ 10 MB
最大動画数 サンプルあたり 1
動画の最大長または最大再生時間 90 秒
動画ファイルの最大サイズ 50 MB
対応イメージフォーマット PNG、JPEG、GIF、WEBP
サポートされているビデオ形式 MOV、MKV、MP4、WEBM
Amazon Titan Text Premier
説明 最大値 (ファインチューニング)
バッチサイズが 1 の場合の入力トークンと出力トークンの合計 4,096
バッチサイズが 2、3 または 4 の場合の入力トークンと出力トークンの合計 該当なし
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6
トレーニングデータセットのファイルサイズ 1 GB
検証データセットのファイルサイズ 100 MB
Amazon Titan Text G1 - Express
説明 最大値 (継続的な事前トレーニング) 最大値 (ファインチューニング)
バッチサイズが 1 の場合の入力トークンと出力トークンの合計 4,096 4,096
バッチサイズが 2、3 または 4 の場合の入力トークンと出力トークンの合計 2,048 2,048
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6 トークンクォータ x 6
トレーニングデータセットのファイルサイズ 10 GB 1 GB
検証データセットのファイルサイズ 100 MB 100 MB
Amazon Titan Text G1 - Lite
説明 最大値 (継続的な事前トレーニング) 最大値 (ファインチューニング)
バッチサイズが 1 または 2 の場合の入力トークンと出力トークンの合計 4,096 4,096
バッチサイズが 3、4、5 または 6 の場合の入力トークンと出力トークンの合計 2,048 2,048
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6 トークンクォータ x 6
トレーニングデータセットのファイルサイズ 10 GB 1 GB
検証データセットのファイルサイズ 100 MB 100 MB
Amazon Titan Image Generator G1 V1
説明 最小 (ファインチューニング) 最大値 (ファインチューニング)
トレーニングサンプルの文字単位のテキストプロンプトの長さ 3 1,024
トレーニングデータセット内のレコード 5 10,000
入力イメージサイズ 0 50 MB
入力イメージのピクセル単位の高さ 512 4,096
入力イメージのピクセル単位の幅 512 4,096
入力イメージのピクセル総数 0 12,582,912
入力イメージのアスペクト比 1:4 4:1
Amazon Titan Multimodal Embeddings G1
説明 最小 (ファインチューニング) 最大値 (ファインチューニング)
トレーニングサンプルの文字単位のテキストプロンプトの長さ 0 2,560
トレーニングデータセット内のレコード 1,000 500,000
入力イメージサイズ 0 5 MB
入力イメージのピクセル単位の高さ 128 4096
入力イメージのピクセル単位の幅 128 4096
入力イメージのピクセル総数 0 12,528,912
入力イメージのアスペクト比 1:4 4:1
Cohere Command
説明 最大値 (ファインチューニング)
入力トークン 4,096
出力トークン 2,048
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6
トレーニングデータセット内のレコード 10,000
検証データセット内のレコード 1,000
Meta Llama 2
説明 最大値 (ファインチューニング)
入力トークン 4,096
出力トークン 2,048
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6
Meta Llama 3.1
説明 最大値 (ファインチューニング)
入力トークン 16,000
出力トークン 16,000
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6

Amazon Nova データ準備ガイドラインについては、「Amazon Nova のデータ準備ガイドライン」を参照してください。