Question and answer for model evaluation in Amazon Bedrock

フォーカスモード

Question and answer for model evaluation in Amazon Bedrock - Amazon Bedrock

質問回答は、ヘルプデスクでの自動レスポンスの生成、情報検索、e ラーニングなどのタスクに使用されます。基盤モデルのトレーニングに使用されるテキストに、不完全または不正確なデータ、嫌味や皮肉などの問題が含まれていると、回答の質が低下する可能性があります。

質問と回答の場合、Cohere モデルが毒性評価を正常に完了できないというシステム上の既知の問題があります。

質問と回答タスクタイプでは、以下の組み込みデータセットを使用することが推奨されます。

BoolQ: BoolQ は、はい/いいえで回答できる質問と回答のペアで構成されるデータセットです。プロンプトには短い文章と、その文章に関する質問が続きます。このデータセットは、質問回答タスクタイプでの使用をお勧めします。
Natural Questions: Natural Questions は、Google 検索に送信された実際のユーザーの質問で構成されるデータセットです。
TriviaQA: TriviaQA は 65 万件を超える質問と回答のエビデンストリプルを含むデータセットです。このデータセットは質問回答タスクに使用されます。

次の表は、計算済みのメトリクスと推奨の組み込みデータセットをまとめたものです。またはサポートされている AWS SDK を使用して使用可能な組み込みデータセットを正常に指定するには AWS CLI、列のパラメータ名である組み込みデータセット (API) を使用します。

Amazon Bedrock の質問回答タスクタイプで使用可能な組み込みデータセット
タスクタイプ	メトリクス	組み込みデータセット (コンソール)	組み込みデータセット (API)	計算済みのメトリクス
質問と回答	正解率	BoolQ	`Builtin.BoolQ`	NLP-F1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	堅牢性	BoolQ	`Builtin.BoolQ`	F1 および deltaF1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	有害性	BoolQ	`Builtin.BoolQ`	有害性
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`