用於微調 Autopilot 中大型語言模型的指標 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

用於微調 Autopilot 中大型語言模型的指標

下一節說明可用來了解微調大型語言模型的指標 (LLMs)。使用資料集,Autopilot 會直接微調目標LLM,以增強預設目標指標,即跨熵損失。

交叉熵損失是一種廣泛使用的指標,用於評估預測的概率分佈與訓練資料中文字的實際分佈之間的不相似性。透過將交叉熵損失最小化,模型學習會進行更精確並與上下文相關的預測,特別是在與文字生成相關的任務中。

微調 之後LLM,您可以使用 範圍來評估其產生的文字品質 ROUGE 分數。此外,您可以在評估過程中分析困惑度、交叉熵訓練和驗證損失。

  • 困惑損失可衡量模型在一系列文字中預測下一個字的程度,而較低的值則表示對語言和上下文有更好的理解。

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE) 是一組指標,用於自然語言處理 (NLP) 和機器學習領域,以評估機器產生的文字品質,例如文字摘要或文字產生。它主要評估產生的文字和驗證資料集的基本事實參考 (人力手寫) 文字之間的相似性。ROUGE 指標旨在評估文字相似性的各個層面,包括系統產生和參考文字中 n 克 (連續單字序列) 的精確度和召回。目標是評估模型擷取參考文字中存在的資訊的程度。

    有幾個變體 ROUGE 指標,取決於使用的 n 克類型和正在評估的文字品質特定方面。

    下列清單包含 的名稱和描述 ROUGE 在 Autopilot 中微調大型語言模型後可用的指標。

    ROUGE-1, ROUGE-2

    ROUGE-N,主要 ROUGE 指標 會測量系統產生的 n 克與參考文字之間的重疊。ROUGE-N 可以調整為不同的 值 n(此處12),以評估系統產生的文字從參考文字擷取 n 克的能力。

    ROUGE-L

    ROUGE-L (ROUGE-Longest 通用子序列) 會計算系統產生的文字和參考文字之間的最長通用子序列。除了內容重疊之外,此變體還會考慮文字順序。

    ROUGE-L-Sum

    ROUGE-L-SUM (摘要的最長通用子序列) 旨在評估文字摘要系統。它專門用於測量機器生成的摘要和參考摘要之間的最長通用子序列。ROUGE-L-SUM 會考慮文字中的單字順序,這在文字摘要任務中很重要。