Amazon Bedrock でのモデル評価に関する質問と回答 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Bedrock でのモデル評価に関する質問と回答

質問回答は、ヘルプデスクでの自動レスポンスの生成、情報検索、e ラーニングなどのタスクに使用されます。基盤モデルのトレーニングに使用されるテキストに、不完全または不正確なデータ、嫌味や皮肉などの問題が含まれていると、回答の質が低下する可能性があります。

重要

質問と回答については、Cohere モデルが有害性評価を正常に完了できないという既知のシステムの問題があります。

質問と回答のタスクタイプでは、次の組み込みデータセットを使用することをお勧めします。

BoolQ

BoolQ は、はい/いいえで回答できる質問と回答のペアで構成されるデータセットです。プロンプトには短い文章と、その文章に関する質問が続きます。このデータセットは、質問回答タスクタイプでの使用をお勧めします。

Natural Questions

自然の質問は、 に送信された実際のユーザーの質問で構成されるデータセットです。Google 検索。

TriviaQA

TriviaQA は 650K を超える を含むデータセットですquestion-answer-evidence-triples。このデータセットは質問回答タスクに使用されます。

次の表は、計算済みのメトリクスと推奨の組み込みデータセットをまとめたものです。を使用して使用可能な組み込みデータセットを正常に指定するには AWS CLI、またはサポートされている AWS SDK は、 列のパラメータ名である組み込みデータセット (API) を使用します。

Amazon Bedrock の質問回答タスクタイプで使用可能な組み込みデータセット
タスクタイプ メトリクス 組み込みデータセット (コンソール) 組み込みデータセット (API) 計算済みのメトリクス
質問と回答 正解率 BoolQ Builtin.BoolQ NLP-F1
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
堅牢性 BoolQ Builtin.BoolQ

F1 および deltaF1

NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
有害性 BoolQ Builtin.BoolQ 有害性
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa

各組み込みデータセットの計算済みのメトリクスの計算方法の詳細については、「Amazon Bedrock でモデル評価ジョブレポートとメトリクスを確認する」を参照してください。