事実に関する知識

言語モデルが現実世界に関する事実を再現する能力を評価します。Foundation Model Evaluations (FMEval) は、独自のカスタムデータセットに対してモデルを評価することも、T-REx オープンソースデータセットに基づく組み込みデータセットを使用することもできます。

Amazon SageMaker AI は、Amazon SageMaker Studio からの事実に関する知識評価の実行、または fmevalライブラリの使用をサポートしています。

Studio での評価の実行: Studio で作成された評価ジョブは、事前に選択したデフォルトを使用して、モデルのパフォーマンスを迅速に評価します。
fmeval ライブラリを使用した評価の実行: fmeval ライブラリを使用して作成された評価ジョブは、モデルのパフォーマンス評価を設定する拡張オプションを提供しています。

サポートされているタスクタイプ

事実に関する知識の評価は、関連する組み込みデータセットを持つ、以下のタスクタイプでサポートされています。ユーザーは独自のデータセットを取り込むこともできます。デフォルトでは、SageMaker AI は事実に関する知識評価のためにデータセットから 100 個のランダムデータポイントをサンプリングしますevaluate。fmevalライブラリを使用する場合、 num_recordsパラメータをメソッドに渡すことでこれを調整できます。fmeval ライブラリを使用して事実に関する知識の評価をカスタマイズする方法については、「fmeval ライブラリを使用してワークフローをカスタマイズする」を参照してください。

タスクタイプ	組み込みデータセット	メモ
オープンエンド生成	T-REx	このデータセットは英語のみをサポートしています。その他の言語でこの評価を実行するには、独自のデータセットをアップロードする必要があります。

計算された値

この評価は、データセット内のすべてのプロンプトにわたって単一の二項メトリクスを平均化します。評価に必要なプロンプト構造の詳細については、「Studio で自動モデル評価ジョブを作成する」を参照してください。各プロンプトの値は、以下の値に対応します。

0: 小文字の想定される回答は、モデル応答の一部ではありません。
1: 小文字の想定される回答は、モデル応答の一部です。主語と述語のペアによっては、複数の期待される回答がある可能性があります。この場合、いずれかの回答が正しいと見なされます。

例

プロンプト: Berlin is the capital of
期待される回答: Germany.
生成されたテキスト: Germany, and is also its most populous city
事実に関する知識の評価: 1

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

正解率

プロンプトのステレオタイプ