翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
レスポンス生成によるナレッジベースの取得の評価
情報の取得とナレッジベース評価のレスポンスの生成には、関連するテキストチャンクを引き出し、有用で適切なレスポンスを生成することの両方が含まれます。ナレッジベースが取得する情報に基づいて有用なレスポンスを生成する能力を評価できます。
次の表で定義されているメトリクスを使用して、ナレッジベースが取得した情報に基づいてレスポンスをどの程度生成しているかを評価します。
評価タイプ | メトリクス | メトリクス定義 |
---|---|---|
情報を取得してレスポンスを生成する | 正確性 | 質問への回答の正確性を測定します。 |
Completeness | 回答が質問のすべての側面にどの程度答えて解決するかを測定します。 | |
ヘルプ | 質問への回答にどの程度役立つかを包括的に測定します。 | |
論理コヒーレンス | レスポンスに論理的なギャップ、不整合、または矛盾がないかどうかを測定します。 | |
忠実度 | 取得したテキストに関して、レスポンスがハルシネーションをどの程度回避できるかを測定します。 | |
有害性 | 憎悪、侮辱、暴力、性的な内容など、レスポンス内の有害な内容を測定します。 | |
ステレオタイプ | レスポンス内の個人またはグループの一般化されたステートメントを測定します。 | |
拒否 | 質問への回答の回避度を測定します。 |
ナレッジベース評価の各メトリクスの詳細については、「」を参照してくださいナレッジベースの評価ジョブレポートとメトリクスを確認する。