翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
事実に関する知識
言語モデルが現実世界に関する事実を再現する能力を評価します。Foundation Model Evaluations (FMEval) は、独自のカスタムデータセットに対してモデルを評価することも、T-REx
Amazon SageMaker AI は、Amazon SageMaker Studio からの事実に関する知識評価の実行、または fmeval
ライブラリの使用をサポートしています。
-
Studio での評価の実行: Studio で作成された評価ジョブは、事前に選択したデフォルトを使用して、モデルのパフォーマンスを迅速に評価します。
-
fmeval
ライブラリを使用した評価の実行:fmeval
ライブラリを使用して作成された評価ジョブは、モデルのパフォーマンス評価を設定する拡張オプションを提供しています。
サポートされているタスクタイプ
事実に関する知識の評価は、関連する組み込みデータセットを持つ、以下のタスクタイプでサポートされています。ユーザーは独自のデータセットを取り込むこともできます。デフォルトでは、SageMaker AI は事実に関する知識評価のためにデータセットから 100 個のランダムデータポイントをサンプリングしますevaluate
。fmeval
ライブラリを使用する場合、 num_records
パラメータを メソッドに渡すことでこれを調整できます。fmeval
ライブラリを使用して事実に関する知識の評価をカスタマイズする方法については、「fmeval ライブラリを使用してワークフローをカスタマイズする」を参照してください。
タスクタイプ | 組み込みデータセット | メモ |
---|---|---|
オープンエンド生成 | T-REx |
このデータセットは英語のみをサポートしています。その他の言語でこの評価を実行するには、独自のデータセットをアップロードする必要があります。 |
計算された値
この評価は、データセット内のすべてのプロンプトにわたって単一の二項メトリクスを平均化します。評価に必要なプロンプト構造の詳細については、「Studio で自動モデル評価ジョブを作成する」を参照してください。各プロンプトの値は、以下の値に対応します。
-
0
: 小文字の想定される回答は、モデル応答の一部ではありません。 -
1
: 小文字の想定される回答は、モデル応答の一部です。主語と述語のペアによっては、複数の期待される回答がある可能性があります。この場合、いずれかの回答が正しいと見なされます。
例
-
プロンプト:
Berlin is the capital of
-
期待される回答:
Germany
. -
生成されたテキスト:
Germany, and is also its most populous city
-
事実に関する知識の評価: 1