翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
自動評価ジョブの結果を理解する
自動モデル評価ジョブが完了すると、結果は Amazon S3 に保存されます。以下のセクションでは、生成されたファイルとその解釈方法について説明します。
output.json
ファイルの構造を解釈する
output.json
ファイルには、選択したデータセットとメトリクスの集計スコアが含まれます。
以下は出力例です。
{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }
インスタンス単位の結果ファイルの構造を解釈する
1evaluation_name
_dataset_name
各 jsonlines リクエストのインスタンス単位の結果を含む .jsonl ファイル。jsonlines 入力データに300
リクエストがある場合、この jsonlines 出力ファイルには300
レスポンスが含まれます。出力ファイルには、モデルに対して行われたリクエストとその評価のスコアが含まれます。インスタンス全体の出力の例を次に示します。
レポートの解釈
評価レポートには、基盤モデル評価ジョブの結果が含まれます。評価レポートの内容は、モデルの評価に使用したタスクの種類によって異なります。各レポートには、以下のセクションが含まれています。
-
評価タスクで成功した各評価の全体的なスコア。1 つのデータセットで 1 つの評価の例として、精度とセマンティック堅牢性の分類タスクのモデルを評価した場合、精度と精度のセマンティック堅牢性の評価結果をまとめた表がレポートの上部に表示されます。他のデータセットを使用した他の評価は、構造が異なる場合があります。
-
モデル名、タイプ、使用された評価方法、モデルが評価されたデータセットなど、評価ジョブの設定。
-
評価アルゴリズムを要約し、組み込みデータセットに関する情報とリンク、スコアの計算方法、関連するスコアを含むサンプルデータを示すテーブルを提供する詳細な評価結果セクション。
-
完了しなかった評価のリストを含む「失敗した評価」セクション。評価が失敗しなかった場合、レポートのこのセクションは省略されます。