Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

Autopilot で大規模言語モデルをファインチューニングするためのメトリクス

フォーカスモード
Autopilot で大規模言語モデルをファインチューニングするためのメトリクス - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

このセクションでは、ファインチューニングされた大規模言語モデル (LLM) を理解するために使用できるメトリクスについて説明します。Autopilot は、データセットを使用してターゲット LLM を直接ファインチューニングし、デフォルトの目標メトリクスである交差エントロピー損失を改善します。

交差エントロピー損失は、予測確率分布とトレーニングデータ内の単語の実際の分布の不一致を評価するために広く使用されているメトリクスです。交差エントロピー損失を最小限に抑えることで、モデルは、特にテキスト生成に関連するタスクで、コンテキストに沿ったより正確な予測を行うことを学習します。

LLM をファインチューニングすると、生成されたテキストの品質を、さまざまな ROUGE スコアを使用して評価できます。さらに、評価プロセスの一環として、パープレキシティと交差エントロピーのトレーニングおよび検証損失を分析できます。

  • パープレキシティ損失は、モデルがテキストシーケンス内の次の単語をどの程度正しく予測できるかを測定します。値が低いほど、言語とコンテキストをよりよく理解できることを示します。

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE) は、自然言語処理 (NLP) や機械学習の分野で使用され、テキストの要約やテキスト生成など、機械生成テキストの品質を評価する一連のメトリクスです。主に、生成されたテキストと検証データセットの Ground Truth リファレンス (人間が書いた) テキストの類似性を評価します。ROUGE の測定値は、システム生成テキストとリファレンステキストの n グラム (連続する単語のシーケンス) の精度と再現率など、テキストの類似性のさまざまな側面を評価するように設計されています。目標は、モデルがリファレンステキストに存在する情報をどの程度正しくキャプチャしているかを評価することです。

    使用される n グラムのタイプと評価されるテキスト品質の特定の側面に応じて、ROUGE メトリクスにはいくつかのバリアントがあります。

    次のリストには、Autopilot で大規模言語モデルをファインチューニングした後に使用可能な ROUGE メトリクスの名前と説明が含まれています。

    ROUGE-1, ROUGE-2

    ROUGE-N はプライマリ ROUGE メトリクスであり、システムが生成したテキストとリファレンステキストの間の n グラムの重複を測定します。ROUGE-N を異なる n 値 (ここでは 1 または 2) に調整して、システム生成テキストがリファレンステキストから n グラムをどの程度正しくキャプチャしているかを評価できます。

    ROUGE-L

    ROUGE-L (ROUGE-Longest Common Subsequence) は、システムが生成したテキストとリファレンステキストの間の共通する最長のサブシーケンスを計算します。このバリアントは、コンテンツの重複に加えて単語の順序も考慮します。

    ROUGE-L-Sum

    ROUGE-L-SUM (Longest Common Subsequence for Summarization) は、テキスト要約システムを評価するために設計されています。機械生成の要約とリファレンスの要約の間で共通する最長のサブシーケンスを測定することに重点を置いています。ROUGE-L-SUM では、テキスト要約タスクで重要とされる、テキスト内の単語の順序が考慮されます。

プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.