翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
自動モデル評価ジョブが完了すると、結果は Amazon S3 に保存されます。以下のセクションでは、生成されるファイルとその解釈方法について説明します。
output.json
ファイルの構造を解釈する
output.json
ファイルには、選択したデータセットとメトリクスの集計スコアが含まれます。
出力の例は、次のとおりです。
{
"evaluations": [{
"evaluation_name": "factual_knowledge",
"dataset_name": "trex",
## The structure of the prompt template changes based on the foundation model selected
"prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]",
"dataset_scores": [{
"name": "factual_knowledge",
"value": 0.2966666666666667
}],
"category_scores": [{
"name": "Author",
"scores": [{
"name": "factual_knowledge",
"value": 0.4117647058823529
}]
},
....
{
"name": "Capitals",
"scores": [{
"name": "factual_knowledge",
"value": 0.2857142857142857
}]
}
]
}]
}
インスタンス単位の結果ファイルの構造を解釈する
各 jsonlines リクエストのインスタンス単位の結果は、1 つの evaluation_name
_dataset_name
.jsonl ファイルに含まれます。jsonlines 入力データに 300
のリクエストがある場合、この jsonlines 出力ファイルには 300
の応答が含まれます。出力ファイルには、モデルに対して行われたリクエストとその評価のスコアが含まれます。インスタンス単位の出力の例は、以下のとおりです。
レポートの解釈
評価レポートには、基盤モデル評価ジョブの結果が含まれます。評価レポートのコンテンツは、モデル評価に使用したタスクのタイプによって異なります。各レポートには、次のセクションが含まれます。
-
評価タスクで適切となった各評価の全体的なスコア。単一のデータセットを使用した単一の評価の例として、分類タスクのモデルを精度とセマンティックの頑健性について評価した場合、精度と精度のセマンティックの頑健性の評価結果をまとめた表がレポートの上部に表示されます。別のデータセットを使用した別の評価では、構造が異なる場合があります。
-
モデル名、タイプ、使用された評価方法、モデル評価対象で使用したデータセットなどの評価ジョブの設定。
-
評価アルゴリズムの概要、組み込みデータセットに関する情報とリンク、スコアの計算方法、サンプルデータと関連するスコアを含むテーブルを提供する [詳細な評価結果] セクション。
-
完了しなかった評価のリストを含む [失敗した評価] セクション。失敗した評価がない場合は、レポートのこのセクションは省略されます。