翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
このセクションでは、ファインチューニングされた大規模言語モデル (LLM) を理解するために使用できるメトリクスについて説明します。Autopilot は、データセットを使用してターゲット LLM を直接ファインチューニングし、デフォルトの目標メトリクスである交差エントロピー損失を改善します。
交差エントロピー損失は、予測確率分布とトレーニングデータ内の単語の実際の分布の不一致を評価するために広く使用されているメトリクスです。交差エントロピー損失を最小限に抑えることで、モデルは、特にテキスト生成に関連するタスクで、コンテキストに沿ったより正確な予測を行うことを学習します。
LLM をファインチューニングすると、生成されたテキストの品質を、さまざまな ROUGE スコアを使用して評価できます。さらに、評価プロセスの一環として、パープレキシティと交差エントロピーのトレーニングおよび検証損失を分析できます。
-
パープレキシティ損失は、モデルがテキストシーケンス内の次の単語をどの程度正しく予測できるかを測定します。値が低いほど、言語とコンテキストをよりよく理解できることを示します。
-
Recall-Oriented Understudy for Gisting Evaluation (ROUGE) は、自然言語処理 (NLP) や機械学習の分野で使用され、テキストの要約やテキスト生成など、機械生成テキストの品質を評価する一連のメトリクスです。主に、生成されたテキストと検証データセットの Ground Truth リファレンス (人間が書いた) テキストの類似性を評価します。ROUGE の測定値は、システム生成テキストとリファレンステキストの n グラム (連続する単語のシーケンス) の精度と再現率など、テキストの類似性のさまざまな側面を評価するように設計されています。目標は、モデルがリファレンステキストに存在する情報をどの程度正しくキャプチャしているかを評価することです。
使用される n グラムのタイプと評価されるテキスト品質の特定の側面に応じて、ROUGE メトリクスにはいくつかのバリアントがあります。
次のリストには、Autopilot で大規模言語モデルをファインチューニングした後に使用可能な ROUGE メトリクスの名前と説明が含まれています。
ROUGE-1
,ROUGE-2
-
ROUGE-N はプライマリ ROUGE メトリクスであり、システムが生成したテキストとリファレンステキストの間の n グラムの重複を測定します。ROUGE-N を異なる
n
値 (ここでは1
または2
) に調整して、システム生成テキストがリファレンステキストから n グラムをどの程度正しくキャプチャしているかを評価できます。 ROUGE-L
-
ROUGE-L (ROUGE-Longest Common Subsequence) は、システムが生成したテキストとリファレンステキストの間の共通する最長のサブシーケンスを計算します。このバリアントは、コンテンツの重複に加えて単語の順序も考慮します。
ROUGE-L-Sum
-
ROUGE-L-SUM (Longest Common Subsequence for Summarization) は、テキスト要約システムを評価するために設計されています。機械生成の要約とリファレンスの要約の間で共通する最長のサブシーケンスを測定することに重点を置いています。ROUGE-L-SUM では、テキスト要約タスクで重要とされる、テキスト内の単語の順序が考慮されます。