Autopilot で大規模言語モデルをファインチューニングするためのメトリクス - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Autopilot で大規模言語モデルをファインチューニングするためのメトリクス

次のセクションでは、微調整された大規模言語モデル () を理解するために使用できるメトリクスについて説明しますLLMs。データセットを使用して、Autopilot はターゲットを直接微調整LLMし、デフォルトの目標メトリクスである交差エントロピー損失を強化します。

交差エントロピー損失は、予測確率分布とトレーニングデータ内の単語の実際の分布の不一致を評価するために広く使用されているメトリクスです。交差エントロピー損失を最小限に抑えることで、モデルは、特にテキスト生成に関連するタスクで、コンテキストに沿ったより正確な予測を行うことを学習します。

を微調整した後、 の範囲を使用して生成されたテキストの品質を評価LLMできます。ROUGE スコア。さらに、評価プロセスの一環として、パープレキシティと交差エントロピーのトレーニングおよび検証損失を分析できます。

  • パープレキシティ損失は、モデルがテキストシーケンス内の次の単語をどの程度正しく予測できるかを測定します。値が低いほど、言語とコンテキストをよりよく理解できることを示します。

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE) は、自然言語処理 (NLP) および機械学習の分野で使用される一連のメトリクスで、テキストの要約やテキスト生成など、機械生成テキストの品質を評価します。主に、生成されたテキストと検証データセットのグラウンドトゥルースリファレンス (人間が作成した) テキストの類似性を評価します。ROUGE メジャーは、システム生成テキストとリファレンステキストの n グラム (連続した一連の単語) の精度や再現率など、テキストの類似性のさまざまな側面を評価するように設計されています。目標は、モデルがリファレンステキストに存在する情報をどの程度正しくキャプチャしているかを評価することです。

    にはいくつかのバリアントがあります。ROUGE 使用する n グラムのタイプと評価されるテキスト品質の特定の側面に応じて、 メトリクス。

    次のリストには、 の名前と説明が含まれています。ROUGE Autopilot での大規模言語モデルの微調整後に利用できる メトリクス。

    ROUGE-1, ROUGE-2

    ROUGE-N、プライマリ ROUGE メトリクスは、システムによって生成されたテキストとリファレンステキスト間の n グラムの重複を測定します。ROUGE-N は、 (nここでは 1または 2) のさまざまな値に調整して、システムによって生成されたテキストがリファレンステキストから n グラムをどの程度適切にキャプチャしているかを評価できます。

    ROUGE-L

    ROUGE-L (ROUGE-Longest Common Subsequence) は、システム生成テキストとリファレンステキストの間の最長の共通サブシーケンスを計算します。このバリアントは、コンテンツの重複に加えて単語の順序も考慮します。

    ROUGE-L-Sum

    ROUGE-L-SUM (要約の最長共通サブシーケンス) は、テキスト要約システムの評価用に設計されています。マシンが生成したサマリーとリファレンスサマリーの間の最長の共通サブシーケンスを測定することに重点を置いています。ROUGE-L-SUM では、テキスト内の単語の順序が考慮されます。これはテキスト要約タスクで重要です。