Autopilot で大規模言語モデルをファインチューニングするためのメトリクス

フォーカスモード

Autopilot で大規模言語モデルをファインチューニングするためのメトリクス - Amazon SageMaker AI

このセクションでは、ファインチューニングされた大規模言語モデル (LLM) を理解するために使用できるメトリクスについて説明します。Autopilot は、データセットを使用してターゲット LLM を直接ファインチューニングし、デフォルトの目標メトリクスである交差エントロピー損失を改善します。

交差エントロピー損失は、予測確率分布とトレーニングデータ内の単語の実際の分布の不一致を評価するために広く使用されているメトリクスです。交差エントロピー損失を最小限に抑えることで、モデルは、特にテキスト生成に関連するタスクで、コンテキストに沿ったより正確な予測を行うことを学習します。

LLM をファインチューニングすると、生成されたテキストの品質を、さまざまな ROUGE スコアを使用して評価できます。さらに、評価プロセスの一環として、パープレキシティと交差エントロピーのトレーニングおよび検証損失を分析できます。

パープレキシティ損失は、モデルがテキストシーケンス内の次の単語をどの程度正しく予測できるかを測定します。値が低いほど、言語とコンテキストをよりよく理解できることを示します。
Recall-Oriented Understudy for Gisting Evaluation (ROUGE) は、自然言語処理 (NLP) や機械学習の分野で使用され、テキストの要約やテキスト生成など、機械生成テキストの品質を評価する一連のメトリクスです。主に、生成されたテキストと検証データセットの Ground Truth リファレンス (人間が書いた) テキストの類似性を評価します。ROUGE の測定値は、システム生成テキストとリファレンステキストの n グラム (連続する単語のシーケンス) の精度と再現率など、テキストの類似性のさまざまな側面を評価するように設計されています。目標は、モデルがリファレンステキストに存在する情報をどの程度正しくキャプチャしているかを評価することです。

使用される n グラムのタイプと評価されるテキスト品質の特定の側面に応じて、ROUGE メトリクスにはいくつかのバリアントがあります。

次のリストには、Autopilot で大規模言語モデルをファインチューニングした後に使用可能な ROUGE メトリクスの名前と説明が含まれています。

ROUGE-1, ROUGE-2

ROUGE-N はプライマリ ROUGE メトリクスであり、システムが生成したテキストとリファレンステキストの間の n グラムの重複を測定します。ROUGE-N を異なる n 値 (ここでは 1 または 2) に調整して、システム生成テキストがリファレンステキストから n グラムをどの程度正しくキャプチャしているかを評価できます。

ROUGE-L

ROUGE-L (ROUGE-Longest Common Subsequence) は、システムが生成したテキストとリファレンステキストの間の共通する最長のサブシーケンスを計算します。このバリアントは、コンテンツの重複に加えて単語の順序も考慮します。

ROUGE-L-Sum

ROUGE-L-SUM (Longest Common Subsequence for Summarization) は、テキスト要約システムを評価するために設計されています。機械生成の要約とリファレンスの要約の間で共通する最長のサブシーケンスを測定することに重点を置いています。ROUGE-L-SUM では、テキスト要約タスクで重要とされる、テキスト内の単語の順序が考慮されます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ハイパーパラメータ

モデルのデプロイと予測

Cookie の設定を選択する

Cookie の設定をカスタマイズする

Essential

Performance

Functional

Advertising

Cookie の設定を保存できません

Autopilot で大規模言語モデルをファインチューニングするためのメトリクス

Related resources

このページは役に立ちましたか?

Related resources

次のトピック

前のトピック:

ヘルプが必要ですか?