Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

Question and answer for model evaluation in Amazon Bedrock

フォーカスモード
Question and answer for model evaluation in Amazon Bedrock - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

質問回答は、ヘルプデスクでの自動レスポンスの生成、情報検索、e ラーニングなどのタスクに使用されます。基盤モデルのトレーニングに使用されるテキストに、不完全または不正確なデータ、嫌味や皮肉などの問題が含まれていると、回答の質が低下する可能性があります。

重要

質問と回答の場合、Cohere モデルが毒性評価を正常に完了できないというシステム上の既知の問題があります。

質問と回答タスクタイプでは、以下の組み込みデータセットを使用することが推奨されます。

BoolQ

BoolQ は、はい/いいえで回答できる質問と回答のペアで構成されるデータセットです。プロンプトには短い文章と、その文章に関する質問が続きます。このデータセットは、質問回答タスクタイプでの使用をお勧めします。

Natural Questions

Natural Questions は、Google 検索に送信された実際のユーザーの質問で構成されるデータセットです。

TriviaQA

TriviaQA は 65 万件を超える質問と回答のエビデンストリプルを含むデータセットです。このデータセットは質問回答タスクに使用されます。

次の表は、計算済みのメトリクスと推奨の組み込みデータセットをまとめたものです。またはサポートされている AWS SDK を使用して使用可能な組み込みデータセットを正常に指定するには AWS CLI、 列のパラメータ名である組み込みデータセット (API) を使用します。

Amazon Bedrock の質問回答タスクタイプで使用可能な組み込みデータセット
タスクタイプ メトリクス 組み込みデータセット (コンソール) 組み込みデータセット (API) 計算済みのメトリクス
質問と回答 正解率 BoolQ Builtin.BoolQ NLP-F1
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
堅牢性 BoolQ Builtin.BoolQ

F1 および deltaF1

NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
有害性 BoolQ Builtin.BoolQ 有害性
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa

各組み込みデータセットの計算済みのメトリクスの計算方法の詳細については、「Review model evaluation job reports and metrics in Amazon Bedrock」を参照してください。

プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.