了解自動評估任務的結果

當您完成自動模型評估任務時，結果會儲存在 Amazon S3 中。以下各節說明產生的檔案以及如何解譯這些檔案。

解譯`output.json`檔案的結構

output.json 檔案包含所選資料集和指標的彙總分數。

以下是輸出範例


{
    "evaluations": [{
        "evaluation_name": "factual_knowledge",
        "dataset_name": "trex",
		## The structure of the prompt template changes based on the foundation model selected
		"prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]",
        "dataset_scores": [{
            "name": "factual_knowledge",
            "value": 0.2966666666666667
        }],
        "category_scores": [{
                "name": "Author",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.4117647058823529
                }]
            },
				....
            {
                "name": "Capitals",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.2857142857142857
                }]
            }
        ]
    }]
}

解譯執行個體結果檔案的結構

一evaluation_name_dataset_name包含每個 jsonlines 請求的執行個體結果的 .jsonl 檔案。如果您的 jsonlines 輸入資料中有300請求，則此 jsonlines 輸出檔案包含300回應。輸出檔案包含對您的模型提出的請求，然後是該評估的分數。範例的全執行個體輸出如下。

解譯報告

評估報告包含基礎模型評估任務的結果。評估報告的內容取決於您用來評估模型的任務類型。每個報告都包含下列區段：

評估任務下每個成功評估的整體分數。作為一個資料集評估的一個範例，如果您評估模型的準確度和語意健全度分類任務，則報告頂端會顯示總結準確度和準確度語意健全度評估結果的資料表。使用其他資料集進行的其他評估結構可能不同。
評估任務的組態，包括模型名稱、類型、使用的評估方法，以及評估模型的資料集。
詳細評估結果區段，可摘要評估演算法、提供有關任何內建資料集的資訊和連結、如何計算分數，以及顯示一些範例資料及其相關分數的資料表。
失敗的評估區段包含未完成的評估清單。如果沒有評估失敗，則會省略報告的此區段。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

了解人工評估任務的結果

使用 Fmeval 程式庫

了解自動評估任務的結果

解譯output.json檔案的結構

解譯執行個體結果檔案的結構

解譯報告

解譯`output.json`檔案的結構