LLMs を使用するナレッジベース評価のレポートカード取得のみのタイプ評価に関連するメトリクスレスポンス生成タイプの評価による取得に関連するメトリクス

LLMs を使用するナレッジベース評価のメトリクスを確認する (コンソール）

Amazon Bedrock コンソールを使用して、ナレッジベース評価ジョブのレポートに表示されるメトリクスを確認できます。

大規模言語モデル (LLMs) コンピューティング評価メトリクスを使用するナレッジベース評価では、ナレッジベースが情報を取得してレスポンスを生成している度合いのパフォーマンスを評価します。

ナレッジベースの評価レポートカードには、取得のみまたはレスポンス生成による取得の評価タイプに関連するメトリクスと内訳グラフが表示されます。さまざまなメトリクスは、さまざまな評価タイプに関連しています。各メトリクスの計算スコアは、プロンプトデータセット内のすべてのユーザークエリで取得されたテキストまたは生成されたレスポンスの平均スコアです。各メトリクスの計算スコアは 0～1 の値です。1 に近いほど、取得されたテキストまたはレスポンスにメトリクスの特性が表示されます。各メトリクスの内訳グラフはヒストグラムをプロットし、クエリで取得したテキストまたはレスポンスが各スコア範囲内にある数をカウントします。

例えば、レスポンスの生成による取得を評価する評価ジョブを作成しました。コンソールレポートカードには、0.82 のレスポンスにおける完全性の計算スコアが表示されます。完全性スコアは、生成されたレスポンスがユーザーの質問のあらゆる側面にどのように対処するかを測定します。これは、データセット内のすべてのプロンプトにわたる質問への回答の平均スコアとして計算されます。完全性のヒストグラムグラフは、ほとんどのレスポンス (最高バー) が完全性スコアの範囲 0.7～0.8 の間に収まることを示しています。ただし、ナレッジベースは、ステレオタイプについても高いスコアを記録し、レスポンスで一般化されたステートメントが平均 0.94 で作成されます。ナレッジベースはほとんどの場合、かなり完全なレスポンスを生成できますが、それらのレスポンスには、個人またはグループに関する一般化された大量のステートメントが含まれます。

LLMs を使用するナレッジベース評価のレポートカード

LLMs を使用するナレッジベース評価ジョブの Amazon Bedrock コンソールでレポートカードを開くには、次の手順に従います。取得のみおよびレスポンス生成による取得の評価タイプに関連する各メトリクスについては、以下の情報を参照してください。

にサインイン AWS Management Console し、https://console.aws.amazon.com/bedrock/ で Amazon Bedrock コンソールを開きます。
ナビゲーションペインから評価を選択し、ナレッジベースの評価を選択します。
ナレッジベース評価ジョブの名前を選択します。ナレッジベース評価のメインページであるレポートカードが表示されます。

注記
レポートカードを開くには、ナレッジベース評価のステータスが準備完了または使用可能である必要があります。

取得のみのタイプ評価に関連するメトリクス

ナレッジベースが高度に関連性の高い情報を取得する能力を評価するには、特定のメトリクスが必要です。

コンテキストの関連性

このメトリクスは、取得した情報の品質に関連しています。スコアは、データセット内のすべてのプロンプトで取得されたテキストチャンクの平均スコアです。コンテキストの関連性とは、取得したテキストチャンクが質問にコンテキスト的に関連していることを意味します。スコアが高いほど、情報は平均してコンテキスト的に関連します。スコアが低いほど、情報はコンテキスト的に関連性が低くなります。

コンテキストカバレッジ (グラウンドトゥルースが必要）

このメトリクスは、取得した情報の品質に関連しています。スコアは、データセット内のすべてのプロンプトで取得されたテキストチャンクの平均スコアです。コンテキストカバレッジとは、取得したテキストチャンクがグラウンドトゥルーステキストで提供されるすべての情報をカバーしていることを意味します。スコアが高いほど、コンテキストカバレッジは平均して高くなります。スコアが低いほど、コンテキストカバレッジは平均して低くなります。

レスポンス生成タイプの評価による取得に関連するメトリクス

取得した情報に基づいて有用で適切なレスポンスを生成するナレッジベースの能力を評価するための特定のメトリクスがあります。

正確性

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。正確性とは、質問に正確に答えることを意味します。スコアが高いほど、生成されたレスポンスは平均して正確になります。スコアが低いほど、生成されたレスポンスは平均して正確ではありません。

Completeness

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。完全性とは、質問のすべての側面に答えて解決することを意味します。スコアが高いほど、生成されたレスポンスは平均して完了します。スコアが低いほど、生成されたレスポンスは平均して完了しなくなります。

ヘルプ

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。有用とは、質問に対する全体的な有用な回答を意味します。スコアが高いほど、生成されたレスポンスは平均して役に立ちます。スコアが低いほど、生成されたレスポンスは平均して役に立ちません。

論理整合性

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。論理整合性とは、レスポンスに論理的なギャップ、不整合、または矛盾がないことを意味します。スコアが高いほど、生成されたレスポンスの平均整合性が高くなります。スコアが低いほど、生成されたレスポンスの一貫性は平均的に低くなります。

忠実度

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。忠実度とは、取得したテキストチャンクを修復することでハルシネーションを回避することを意味します。スコアが高いほど、生成されたレスポンスは平均的に忠実になります。スコアが低いほど、生成されたレスポンスは平均して忠実度が低くなります。

有害性

このメトリクスは、生成されたレスポンスの適切性に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。有害とは、憎悪的、侮辱的、または暴力的な発言をすることです。スコアが高いほど、生成されたレスポンスは平均して有害になります。スコアが低いほど、生成されたレスポンスの平均的な有害性は低くなります。

ステレオタイプ

このメトリクスは、生成されたレスポンスの適切性に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。ステレオタイプ化とは、個人またはグループの一般化ステートメントを作成することを意味します。スコアが高いほど、生成されたレスポンスのステレオタイプが平均して高くなります。スコアが低いほど、生成されたレスポンスのステレオタイプは平均して小さくなります。フラット化と中傷の両方のステレオタイプが強く存在すると、スコアが高くなることに注意してください。

拒否

このメトリクスは、生成されたレスポンスの適切性に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。拒否とは、質問に対する回避的な回答を意味します。スコアが高いほど、生成されたレスポンスは平均的に回避的になります。スコアが低いほど、生成されたレスポンスは平均して回避性が低くなります。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ナレッジベース評価のレポートとメトリクス

ナレッジベース評価ジョブを削除する