本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
用於微調 Autopilot 中大型語言模型的指標
下一節說明可用來了解微調大型語言模型 (LLMs) 的指標。使用您的資料集,Autopilot 會直接微調目標 LLM,以增強預設目標指標,即跨熵損失。
交叉熵損失是一種廣泛使用的指標,用於評估預測的概率分佈與訓練資料中文字的實際分佈之間的不相似性。透過將交叉熵損失最小化,模型學習會進行更精確並與上下文相關的預測,特別是在與文字生成相關的任務中。
微調 LLM 之後,您可以使用一系列ROUGE分數來評估其產生的文字品質。此外,您可以在評估過程中分析困惑度、交叉熵訓練和驗證損失。
-
困惑損失可衡量模型在一系列文字中預測下一個字的程度,而較低的值則表示對語言和上下文有更好的理解。
-
Recall-Oriented Understudy for Gisting Evaluation (ROUGE) 是一組指標,用於自然語言處理 (NLP) 和機器學習領域,以評估機器產生的文字品質,例如文字摘要或文字產生。它主要評估所產生文字與驗證資料集的地面實況參考 (人類撰寫) 文字之間的相似性。 ROUGE指標旨在評估文字相似性的各個層面,包括系統產生和參考文字中的 n 克 (連續字詞序列) 的精確度和召回。目標是評估模型擷取參考文字中存在的資訊的程度。
ROUGE 指標有數種變體,取決於使用的 n 克類型和評估的文字品質特定層面。
下列清單包含 Autopilot 中大型語言模型微調後可用ROUGE指標的名稱和描述。
ROUGE-1
,ROUGE-2
-
ROUGE-N是主要ROUGE指標, 會測量系統產生和參考文字之間的 n-gram 重疊。 ROUGE-N 可以調整為不同的值
n
(此處1
或2
),以評估系統產生的文字從參考文字擷取 n-gram 的能力。 ROUGE-L
-
ROUGE-L (ROUGE-Longest通用子序列) 計算系統產生的文字和參考文字之間最長的通用子序列。除了內容重疊之外,此變體還會考慮文字順序。
ROUGE-L-Sum
-
ROUGE-L-SUM (摘要的最長通用子序列) 旨在評估文字摘要系統。它著重於測量機器產生的摘要和參考摘要之間最長的常見子序列。 ROUGE-L-SUM會考慮文字中的字詞順序,這在文字摘要任務中很重要。