データセットを準備する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データセットを準備する

モデルカスタマイズジョブを開始する前に、トレーニングデータセットを最低限準備する必要があります。検証データセットがサポートされているかどうか、トレーニングデータセットと検証データセットの形式は、次の要因によって異なります。

  • カスタマイズジョブのタイプ (微調整または継続的な事前トレーニング)。

  • データの入力モダリティと出力モダリティ。

微調整と継続的なトレーニング前データ形式のモデルサポート

次の表は、各モデルでサポートされている微調整および継続的なトレーニング前データ形式の詳細を示しています。

モデル名 微調整:Text-to-text 微調整: Text-to-image & Image-to-embeddings 継続的な事前トレーニング:Text-to-text 微調整: シングルターンメッセージング 微調整: マルチターンメッセージング
Amazon Titan Text G1 - Express 可能 いいえ はい いいえ なし
Amazon Titan Text G1 - Lite 可能 いいえ はい いいえ なし
Amazon Titan Text Premier 可能 いいえ いいえ いいえ なし
Amazon Titan Image Generator G1 V1 あり はい いいえ いいえ なし
Amazon Titan Multimodal Embeddings G1 G1 あり はい いいえ いいえ いいえ
Anthropic Claude 3 Haiku いいえ いいえ いいえ はい はい
Cohere Command はい いいえ いいえ いいえ いいえ
Cohere Command Light はい いいえ いいえ いいえ なし
Meta Llama 2 13B 可能 いいえ いいえ いいえ なし
Meta Llama 2 70B 可能 いいえ いいえ いいえ なし

さまざまなモデルのカスタマイズに使用されるトレーニングデータセットと検証データセットに適用されるデフォルトのクォータを確認するには、「」の「Amazon Bedrock エンドポイントとクォータのトレーニングレコードと検証レコードのクォータの合計」を参照してください AWS 全般のリファレンス。 https://docs.aws.amazon.com/general/latest/gr/bedrock.html

カスタムモデルのトレーニングデータセットと検証データセットを準備する

カスタムモデルのトレーニングデータセットと検証データセットを準備するには、.jsonlファイルを作成します。各行はレコードに対応するJSONオブジェクトです。作成するファイルは、選択したカスタマイズ方法とモデルの形式に準拠し、その中のレコードはサイズ要件に準拠している必要があります。

形式は、カスタマイズ方法とモデルの入出力モダリティによって異なります。選択した方法に対応するタブを選択し、ステップに従います。

Fine-tuning: Text-to-text

モデルの場合は text-to-text、トレーニングデータセットとオプションの検証データセットを準備します。各JSONオブジェクトは、 フィールドpromptcompletionフィールドの両方を含むサンプルです。トークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

次に、質問応答タスクの項目の例を示します。

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

または image-to-embedding text-to-imageモデルの場合は、トレーニングデータセットを準備します。検証データセットはサポートされていません。各JSONオブジェクトは、 image-ref、イメージURIの Amazon S3、イメージのプロンプトとなるcaption可能性のある を含むサンプルです。

イメージは JPEGまたは PNG形式である必要があります。

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

以下にサンプル項目を示します。

{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Amazon Bedrock がイメージファイルにアクセスできるようにするには、 で設定した、またはコンソールで自動的に設定された Amazon Bedrock モデルのカスタマイズサービスロールトレーニングファイルや検証ファイルにアクセスし、S3 に出力ファイルを書き込む権限に、 のようなIAMポリシーを追加します。トレーニングデータセットで指定する Amazon S3 パスは、ポリシーで指定するフォルダに存在する必要があります。

Continued Pre-training: Text-to-text

モデルで継続的な事前トレーニングを実行するには、トレーニングデータセットとオプションの検証データセットを準備します text-to-text。継続的な事前トレーニングにはラベル付けされていないデータが含まれるため、各JSON行は inputフィールドのみを含むサンプルです。トークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

以下は、トレーニングデータに含まれる可能性のある項目の例です。

{"input": "AWS stands for Amazon Web Services"}
Fine-tuning: Single-turn messaging

シングルターンメッセージング形式を使用してモデルを微調整するには、トレーニングデータセットとオプションの検証データセットを準備します text-to-text。両方のデータファイルは JSONL形式である必要があります。各行は json 形式で完全なデータサンプルを指定します。各データサンプルは 1 行にフォーマットする必要があります (各サンプル内のすべての「\n」を削除してください)。複数のデータサンプルを持つ 1 行、または複数の行にデータサンプルを分割しても機能しません。

フィールド

  • system (オプション) : 会話のコンテキストを設定するシステムメッセージを含む文字列。

  • messages : メッセージオブジェクトの配列。それぞれに以下が含まれます。

    • role : userまたは のいずれか assistant

    • content : メッセージのテキストコンテンツ

ルール

  • messages 配列には 2 つのメッセージが含まれている必要があります

  • 最初のメッセージには roleのユーザーが必要です

  • 最後のメッセージにはアシスタントroleの が必要です

{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
Fine-tuning: Multi-turn messaging

マルチターンメッセージング形式を使用してモデルを微調整するには、トレーニングデータセットとオプションの検証データセットを準備します text-to-text。両方のデータファイルは JSONL形式である必要があります。各行は json 形式で完全なデータサンプルを指定します。各データサンプルは 1 行にフォーマットする必要があります (各サンプル内のすべての「\n」を削除してください)。複数のデータサンプルを持つ 1 行、または複数の行にデータサンプルを分割しても機能しません。

フィールド

  • system (オプション) : 会話のコンテキストを設定するシステムメッセージを含む文字列。

  • messages : メッセージオブジェクトの配列。それぞれに以下が含まれます。

    • role : userまたは のいずれか assistant

    • content : メッセージのテキストコンテンツ

ルール

  • messages 配列には 2 つのメッセージが含まれている必要があります

  • 最初のメッセージには roleのユーザーが必要です

  • 最後のメッセージにはアシスタントroleの が必要です

  • メッセージは ロールuserassistantロールの間で交互にする必要があります。

{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}

タブを選択すると、モデルのトレーニングデータセットと検証データセットの要件が表示されます。

Amazon Titan Text Premier
説明 最大 (微調整)
バッチサイズが 1 の場合の入力トークンと出力トークンの合計 4,096
バッチサイズが 2、3、または 4 の場合の入出力トークンの合計 該当なし
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6
トレーニングデータセットのファイルサイズ 1 GB
検証データセットのファイルサイズ 100 MB
Amazon Titan Text G1 - Express
説明 最大 (継続的な事前トレーニング) 最大 (微調整)
バッチサイズが 1 の場合の入力トークンと出力トークンの合計 4,096 4,096
バッチサイズが 2、3、または 4 の場合の入出力トークンの合計 2,048 2,048
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6 トークンクォータ x 6
トレーニングデータセットのファイルサイズ 10 GB 1 GB
検証データセットのファイルサイズ 100 MB 100 MB
Amazon Titan Text G1 - Lite
説明 最大 (継続的な事前トレーニング) 最大 (微調整)
バッチサイズが 1 または 2 の場合の入出力トークンの合計 4,096 4,096
バッチサイズが 3、4、5、または 6 の場合の入出力トークンの合計 2,048 2,048
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6 トークンクォータ x 6
トレーニングデータセットのファイルサイズ 10 GB 1 GB
検証データセットのファイルサイズ 100 MB 100 MB
Amazon Titan Image Generator G1 V1
説明 最小 (微調整) 最大 (微調整)
トレーニングサンプルのテキストプロンプトの長さ、文字単位 3 1,024
トレーニングデータセット内のレコード 5 10,000
入力イメージサイズ 0 50 MB
入力イメージの高さをピクセル単位で表示 512 4,096
ピクセル単位での入力イメージ幅 512 4,096
入力イメージの合計ピクセル 0 12,582,912
入力イメージのアスペクト比 1:4 4:1
Amazon Titan Multimodal Embeddings G1
説明 最小 (微調整) 最大 (微調整)
トレーニングサンプルのテキストプロンプトの長さ、文字単位 0 2,560
トレーニングデータセット内のレコード 1,000 500,000
入力イメージサイズ 0 5 MB
入力イメージの高さをピクセル単位で表示 128 4096
ピクセル単位での入力イメージ幅 128 4096
入力イメージの合計ピクセル 0 12,528,912
入力イメージのアスペクト比 1:4 4:1
Cohere Command
説明 最大 (微調整)
入力トークン 4,096
出力トークン 2,048
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6
トレーニングデータセット内のレコード 10,000
検証データセット内のレコード 1,000
Meta Llama 2
説明 最大 (微調整)
入力トークン 4,096
出力トークン 2,048
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6