本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
了解自動評估任務的結果
當您完成自動模型評估任務時,結果會儲存在 Amazon S3 中。以下各節說明產生的檔案以及如何解譯這些檔案。
解譯output.json
檔案的結構
output.json
檔案包含所選資料集和指標的彙總分數。
以下是輸出範例
{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }
解譯執行個體結果檔案的結構
一evaluation_name
_dataset_name
包含每個 jsonlines 請求的執行個體結果的 .jsonl 檔案。如果您的 jsonlines 輸入資料中有300
請求,則此 jsonlines 輸出檔案包含300
回應。輸出檔案包含對您的模型提出的請求,然後是該評估的分數。範例的全執行個體輸出如下。
解譯報告
評估報告包含基礎模型評估任務的結果。評估報告的內容取決於您用來評估模型的任務類型。每個報告都包含下列區段:
-
評估任務下每個成功評估的整體分數。作為一個資料集評估的一個範例,如果您評估模型的準確度和語意健全度分類任務,則報告頂端會顯示總結準確度和準確度語意健全度評估結果的資料表。使用其他資料集進行的其他評估結構可能不同。
-
評估任務的組態,包括模型名稱、類型、使用的評估方法,以及評估模型的資料集。
-
詳細評估結果區段,可摘要評估演算法、提供有關任何內建資料集的資訊和連結、如何計算分數,以及顯示一些範例資料及其相關分數的資料表。
-
失敗的評估區段包含未完成的評估清單。如果沒有評估失敗,則會省略報告的此區段。