翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon Bedrock リソースのパフォーマンスを評価する
<a name="evaluation"></a>

Amazon Bedrock の評価を使用して、Amazon Bedrock モデルとナレッジベース、Amazon Bedrock 外部のモデルと検索拡張生成 (RAG) ソースのパフォーマンスと有効性を評価します。Amazon Bedrock は、モデルのセマンティック堅牢性や、情報の取得とレスポンスの生成におけるナレッジベースの正確性などのパフォーマンスメトリクスを計算できます。ヒューマンワーカーのチームを活用して、評価のための入力を格付けして提供することもできます。

大規模言語モデル (LLM) を活用する評価を含む自動評価では、モデルとナレッジベースの有効性を評価するのに役立つ計算されたスコアとメトリクスが生成されます。人間ベースの評価では、特定のメトリクスに関連して評価と設定を提供する人間で構成されるチームを利用します。

**概要: プログラムによるモデル評価ジョブ**  
プログラムによるモデル評価ジョブを使用すると、モデルのタスク実行能力をすばやく評価できます。特定のユースケースに合わせてカスタマイズされた独自のカスタムプロンプトデータセットを使用することも、使用可能な組み込みデータセットを使用することもできます。

**概要: ヒューマンワーカーによるモデル評価ジョブ**  
ヒューマンワーカーによるモデル評価ジョブでは、モデル評価のプロセスに人間の意見を取り入れることができます。このチームには、社内の従業員や業界の専門家を含めることができます。

**概要: 判定モデルを使用したモデル評価ジョブ**  
判定モデルを使うモデル評価ジョブでは、2 つ目の LLM を使用してモデルのレスポンスを迅速に評価できます。2 番目の LLM はレスポンスにスコアを付け、各レスポンスの説明を提供します。

**大規模言語モデル (LLM) を使用する RAG 評価の概要**  
LLM ベースの評価は、ナレッジベースのパフォーマンスメトリクスを計算します。これらのメトリクスは、RAG ソースまたは Amazon Bedrock ナレッジベースが関連性の高い情報を取得し、有用で適切なレスポンスを生成できるかどうかを明らかにします。ナレッジベースが情報を取得し、指定したクエリのレスポンスを生成する方法を評価するために、ユーザーはプロンプトまたはユーザークエリを含むデータセットを提供します。データセットには、レッジベースが期待どおりに機能するかどうかを評価できるように、「グラウンドトゥルース (正解)」、つまりクエリで取得されると想定されるテキストとレスポンスを含める必要があります。

最初のモデル評価ジョブの作成の詳細については、次のトピックを参照してください。

モデル評価ジョブは、以下のタイプの Amazon Bedrock モデルをサポートしています。
+ 基盤モデル
+ Amazon Bedrock Marketplace モデル
+ カスタマイズされた基盤モデル
+ インポートされた基盤モデル
+ プロンプトルーター
+ プロビジョンドスループットを購入したモデル

**Topics**
+ [モデルの評価をサポートするリージョンとモデル](evaluation-support.md)
+ [Amazon Bedrock での自動モデル評価ジョブの作成](evaluation-automatic.md)
+ [Amazon Bedrock でヒューマンワーカーを使用するモデル評価ジョブを作成する](evaluation-human.md)
+ [別の LLM-as-a-judge を使用してモデルのパフォーマンスを評価する](evaluation-judge.md)
+ [Amazon Bedrock の評価を使用して RAG ソースのパフォーマンスを評価する](evaluation-kb.md)
+ [S3 バケットに必要なクロスオリジンリソース共有 (CORS) のアクセス許可](model-evaluation-security-cors.md)
+ [Review model evaluation job reports and metrics in Amazon Bedrock](model-evaluation-report.md)
+ [Amazon Bedrock の評価ジョブでのデータ管理と暗号化](evaluation-data-management.md)
+ [モデル評価ジョブの CloudTrail 管理イベント](cloudtrail-events-in-model-evaluations.md)