データセットファイルタイプと入力データ形式

命令ベースの微調整では、ラベル付きデータセットを使用して、特定の自然言語処理 (NLP) タスクLLMsで事前にトレーニングされたパフォーマンスを向上させます。ラベル付き例は、プロンプトとレスポンスのペアとしてフォーマットされ、指示としてフレーズ化されます。

サポートされているデータセットファイルタイプについては、「」を参照してくださいサポートされているデータセットファイルタイプ。

入力データ形式の詳細については、「」を参照してください命令ベースの微調整の入力データ形式。

サポートされているデータセットファイルタイプ

Autopilot は、CSVファイル (デフォルト) または Parquet ファイルとしてフォーマットされた命令ベースの微調整データセットをサポートしています。

CSV (カンマ区切り値) は、人間が読み取れるプレーンテキストにデータを保存する行ベースのファイル形式です。これは、幅広いアプリケーションでサポートされるため、データ交換によく使用される選択肢です。
Parquet は、バイナリの列ベースのファイル形式であり、などの人間が読み取り可能なファイル形式よりも効率的にデータを保存および処理しますCSV。これにより、ビッグデータの問題に対するより良いオプションになります。

データセットは複数のファイルで構成されている場合があり、それぞれが特定のテンプレートに従う必要があります。入力データのフォーマット方法については、「」を参照してください命令ベースの微調整の入力データ形式。

データセット内の各ファイルは、次の形式に従う必要があります。

データセットには、2 つのカンマ区切り列と名前付き列、inputおよびが含まれている必要がありますoutput。Autopilot では、追加の列は許可されません。
input 列にはプロンプトが含まれ、対応する列には期待される回答outputが含まれます。input とはどちらも文字列形式outputです。

次の例は、Autopilot での命令ベースの微調整の入力データ形式を示しています。


input,output
"<prompt text>","<expected generated text>"

モデルの最適な学習とパフォーマンスを確保するために、1000 行以上のデータセットを使用することをお勧めします。

さらに、Autopilot は、データセット内の行数とコンテキストの長さの上限を、使用するモデルのタイプに基づいて設定します。

データセット内の行数の制限は、複数のファイルを含むデータセット内のすべてのファイルにわたる行の累積数に適用されます。2 つのチャネルタイプが定義されている場合 (1 つはトレーニング用、もう 1 つは検証用）、制限は両方のチャネル内のすべてのデータセットの行の合計数に適用されます。行数がしきい値を超えると、ジョブは検証エラーで失敗します。
データセット内の行の入力または出力の長さが言語モデルのコンテキストで設定された制限を超えると、自動的に切り捨てられます。データセット内の行の 60% 以上が切り捨てられた場合、入力または出力のいずれであっても、Autopilot は検証エラーでジョブに失敗します。

次の表は、各モデルのこれらの制限を示しています。

JumpStart モデル ID	`BaseModelName` APIリクエスト内	行の制限	コンテキストの長さ制限
huggingface-textgeneration-dolly-v2-3b-bf16	`Dolly3B`	10,000 行	1024 トークン
huggingface-textgeneration-dolly-v2-7b-bf16	`Dolly7B`	10,000 行	1024 トークン
huggingface-textgeneration-dolly-v2-12b-bf16	`Dolly12B`	10,000 行	1024 トークン
huggingface-llm-falcon-7b-bf16	`Falcon7B`	1,000 行	1024 トークン
huggingface-llm-falcon-7b-instruct-bf16	`Falcon7BInstruct`	1,000 行	1024 トークン
huggingface-llm-falcon-40b-bf16	`Falcon40B`	10,000 行	1024 トークン
huggingface-llm-falcon-40b-instruct-bf16	`Falcon40BInstruct`	10,000 行	1024 トークン
huggingface-text2text-flan-t5-large	`FlanT5L`	10,000 行	1024 トークン
huggingface-text2text-flan-t5-xl	`FlanT5XL`	10,000 行	1024 トークン
huggingface-text2text-flan-t5-xxll	`FlanT5XXL`	10,000 行	1024 トークン
meta-textgeneration-llama-2-7b	`Llama2-7B`	10,000 行	2048 トークン
meta-textgeneration-llama-2-7b-f	`Llama2-7BChat`	10,000 行	2048 トークン
meta-textgeneration-llama-2-13b	`Llama2-13B`	7,000 行	2048 トークン
meta-textgeneration-llama-2-13b-f	`Llama2-13BChat`	7,000 行	2048 トークン
huggingface-llm-mistral-7b	`Mistral7B`	10,000 行	2048 トークン
huggingface-llm-mistral-7b-instruct	`Mistral7BInstruct`	10,000 行	2048 トークン
huggingface-textgeneration1-mpt-7b-bf16	`MPT7B`	10,000 行	1024 トークン
huggingface-textgeneration1-mpt-7b-instruct-bf16	`MPT7BInstruct`	10,000 行	1024 トークン

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

サポートされているモデル

ハイパーパラメータ