正解率 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

正解率

この評価では、モデル出力をデータセットに含まれるグラウンドトゥルース回答と比較することで、モデルのタスクでの動作の精度の程度を評価します。

Amazon SageMaker AI は、Amazon SageMaker Studio からの精度評価の実行、または fmevalライブラリの使用をサポートしています。

  • Studio での評価の実行: Studio で作成された評価ジョブは、事前に選択したデフォルトを使用して、モデルのパフォーマンスを迅速に評価します。

  • fmeval ライブラリを使用した評価の実行: fmeval ライブラリを使用して作成された評価ジョブは、モデルのパフォーマンス評価を設定する拡張オプションを提供しています。

サポートされているタスクタイプ

精度評価は、関連する組み込みデータセットを持つ、以下のタスクタイプでサポートされています。組み込みデータセットには、精度の評価に使用されるグラウンドトゥルースコンポーネントが含まれています。ユーザーは独自のデータセットを使用することもできます。データセットにグラウンドトゥルースコンポーネントを含める方法の詳細については、「自動モデル評価」を参照してください。

デフォルトでは、SageMaker AI は精度評価のためにデータセットから 100 個のランダムプロンプトをサンプリングします。fmevalライブラリを使用する場合、 num_recordsパラメータを evaluateメソッドに渡すことで調整できます。fmevalライブラリを使用した事実に関する知識評価のカスタマイズについては、「」を参照してくださいfmeval ライブラリを使用してワークフローをカスタマイズする

タスクタイプ 組み込みデータセット メモ
テキスト要約 Gigaword政府レポートデータセット 組み込みデータセットは英語のみですが、メトリクスによっては、言語に依存しないものもあります。任意の言語のデータセットを取り込むことができます。
質問に対する回答 BoolQNaturalQuestionsTriviaQA 組み込みデータセットは英語のみですが、メトリクスによっては、言語に依存しないものもあります。任意の言語のデータセットを取り込むことができます。
分類 Women's E-Commerce Clothing Reviews

計算された値

精度を評価するために評価されるスコアは、タスクタイプによって異なります。評価に必要なプロンプト構造の詳細については、「Studio で自動モデル評価ジョブを作成する」を参照してください。

要約

要約タスクの場合、精度評価はモデルがテキストをどの程度正確に要約できるかを評価します。デフォルトでは、この評価は入力テキストとグラウンドトゥルース回答のペアを含む 2 つの組み込みデータセットでモデルをベンチマークします。次に、モデルが生成したサマリーは、サマリーの類似性を異なる方法で評価する 3 つの組み込みメトリクスを使用して、グラウンドトゥルース回答と比較されます。このようなスコアはすべてデータセット全体で平均されます。

  • ROUGE スコア: ROUGE スコアは、モデルが生成したサマリーとグラウンドトゥルースサマリー間の重複する単語単位 (n-gram) を計算して、サマリーの質を評価するメトリクスのクラスです。ROUGE スコアを評価する場合、スコアが高いほど、モデルがより質の高いサマリーを作成できたことを示します。

    • 値の範囲は、0 (一致なし) から 1 (完全一致) です。

    • このメトリクスでは、大文字と小文字は区別されません。

    • 制限: スコアは単語の正確な重複に依存するため、抽象的な要約タスクでは信頼性に劣る場合があります。

    • ROUGE bigram 計算の例

      • グラウンドトゥルースサマリー:「犬は公園でボールを取ってくる遊びをしました」

      • 生成されたサマリー:「犬はボールで遊んだ」

      • ROUGE-2: リファレンスと候補の間で共通する bigram (文中の 2 つの隣接する単語) の数をカウントします。共通する bigram は 4 つあります (「犬」、「犬は遊んだ」、「で」、「ボール」)。

      • グラウンドトゥルースサマリーの bigram の合計数で割る: 9

      • ROUGE-2 = 4/9 = 0.444

    • Studio 自動モデル評価ジョブの ROUGE スコアのデフォルト

      Studio を使用して自動モデル評価ジョブを作成すると、SageMaker AI は ROUGE スコア計算で使用される N グラムN=2に を使用します。その結果、モデル評価ジョブはマッチングに bigram を使用することになります。Studio ジョブでは、Porter ステマーも使用し、すべてのプロンプトから単語の接尾辞を削除します。例えば、文字列 rainingrain に切り捨てられます。

    • fmeval ライブラリで利用可能な ROUGE スコアのオプション

      fmeval ライブラリを使用すると、SummarizationAccuracyConfig パラメータを使用して ROUGE スコアの計算方法を設定できます。以下のオペレーションがサポートされています。 

      • rouge_type: 一致させる n-gram の長さ。サポートされている 3 つの値は、以下のとおりです。

        •  ROUGE_1 は、単一の単語 (unigram) と一致します

        •  ROUGE_2 は、単語のペア (bigram) と一致します。これは、デフォルト値です。

        •  ROUGE_L は、最も長い共通のサブシーケンスと一致します。  最も長い共通のサブシーケンスを計算するには、単語の順序が考慮されます。ただし、単語の連続性は考慮されません。

          • 以下に例を示します。

            • モデルサマリー =「秋になりました」

            • リファレンス =「また秋になりました」

            • Longest common subsequence(prediction, reference)=3

      • use_stemmer_for_rouge: True (デフォルト) の場合、Porter ステマーを使用して単語の接尾辞を削除します。 

        • 例えば、「曇って」は、「曇り」に切り捨てられます。

  • Metric for Evaluation of Translation with Explicit ORdering (METEOR) スコア: METEOR は ROUGE-1 に似ていますが、ステミングと同義語のマッチングも含まれています。シンプルな n-gram マッチングに限定される ROUGE と比較して、要約の質をより包括的に把握できます。通常、METEOR スコアが高いほど精度が高いことを示します。

    • 制限: スコアは単語の正確な重複と同義語の単語の重複に依存するため、抽象的な要約タスクでは信頼性に劣る場合があります。

  • BERTScore: BERTScore は、BERT ファミリーの追加の ML モデルを使用して、文の埋め込みを計算し、それらのコサイン類似性を比較します。このスコアは、意味論的に類似した文が相互に近隣に埋め込まれる可能性があるため、ROUGE や METEOR と比べて言語の柔軟性を考慮に入れることを目的としています。

    • [Limitations:] (制限:)

      • 文章の比較に使用されるモデルの制限事項を継承します。

      • 重要な単語のいずれかが変更されると、短いテキストの比較については信頼性に劣る場合があります。

    • Studio 自動モデル評価ジョブの BERTScore のデフォルト

      Studio を使用して自動モデル評価ジョブを作成すると、SageMaker AI はdeberta-xlarge-mnliモデルを使用して BERTScore を計算します。

    • fmeval ライブラリで利用可能な BERTScore のオプション

      fmeval ライブラリを使用すると、SummarizationAccuracyConfig パラメータを使用して BERTScore の計算方法を設定できます。以下のオペレーションがサポートされています。

      • model_type_for_bertscore: スコアリングに使用するモデルの名前。現時点で BERTScore がサポートしているのは、以下のモデルのみです。

質問に対する回答

質問への回答タスクの場合、精度評価は、生成された回答を特定のグラウンドトゥルース回答とさまざまな方法で比較することで、モデルの質問への回答 (QA) パフォーマンスを評価します。このようなスコアはすべて、データセット全体で平均化されます。

注記

これらのメトリクスは、生成された回答とグラウンドトゥルース回答を比較して完全一致を求めるように計算されます。その結果、回答の意味を変更せずに回答を言い換えることができる質問では、信頼性に劣る場合があります。

  • Precision Over Words スコア: 0 (最低) から 1 (最高) の範囲の数値スコア。このスコアを計算するには、比較する前にモデル出力とグラウンドトゥルースを正規化します。この評価では、精度を計算する前に改行文字をすべて削除して、複数の異なる段落を含む冗長な回答が考慮されます。独自のデータセットをアップロードすると、任意の言語で精度を評価できます。

    • precision = true positives / (true positives + false positives)

      • true positives: グラウンドトゥルースにも含まれているモデル出力内の単語の数。

      • false positives: グラウンドトゥルースに含まれていないモデル出力内の単語の数。

  • Recall Over Words スコア: 0 (最低) から 1 (最高) の範囲の数値スコア。このスコアを計算するには、モデル出力とグラウンドトゥルースを比較前に正規化します。この評価では、再現率を計算する前に改行文字を削除して、いくつかの異なる段落を含む詳細な回答を考慮します。再現率は回答にグラウンドトゥルースが含まれているかどうかのみをチェックし、冗長性にペナルティを課さないため、冗長なモデルには再現率を使用することをお勧めします。独自のデータセットをアップロードすると、任意の言語で再現率を評価できます。

    • recall = true positives / (true positives + false negatives)

      • true positives: グラウンドトゥルースにも含まれているモデル出力内の単語の数。

      • false negatives: モデル出力内に含まれておらず、グラウンドトゥルースには含まれている単語の数。

  • F1 Over Words スコア: 0 (最低) から 1 (最高) の範囲の数値スコア。F1 は、精度と再現率の調和平均です。このスコアを計算するには、比較する前にモデル出力とグラウンドトゥルースを正規化します。この評価では、F1 を計算する前に改行文字をすべて削除して、複数の異なる段落を含む冗長な回答が考慮されます。独自のデータセットをアップロードすると、任意の言語で F1 over words を評価できます。

    • F1 = 2*((precision * recall)/(precision + recall))

      • precision: 精度は精度スコアと同じ方法で計算されます。

      • recall: 再現率は、再現率スコアと同じ方法で計算されます。

  • 完全一致 (EM) スコア: モデル出力がグラウンドトゥルース回答と完全に一致しているかどうかを示す二項スコア。独自のデータセットをアップロードすると、任意の言語で完全一致を評価できます。

    • 0: 完全一致ではありません。

    • 1: 完全一致です。

    • 例:

      • 質問: where is the world's largest ice sheet located today?”

      • グラウンドトゥルース:「南極」

      • 生成された回答:「南極で」

        • スコア: 0

      • 生成された回答:「南極」

        • スコア: 1

  • 準完全一致スコア: EM スコアと同様に計算される二項スコアです。ただし比較する前に、モデル出力とグラウンドトゥルースが正規化されます。この正規化では、両者とも出力は小文字に変換され、冠詞、句読点、余分な空白が削除されます。

    • 0: 準完全一致ではありません。

    • 1: 準完全一致です。

    • 例:

      • 質問: where is the world's largest ice sheet located today?”

      • グラウンドトゥルース:「南極」

      • 生成された回答:「南米で」

        • スコア: 0

      • 生成された回答:「南極で」

        • スコア: 1

分類

分類タスクの場合、精度評価は入力の予測クラスを指定されたラベルと比較します。このようなスコアはすべて、データセット全体で個別に平均化されます。

  • 精度スコア: モデルが予測したラベルが、入力の指定されたラベルと完全に一致するかどうかを示す二項スコア。

    • 0: 完全一致ではありません。

    • 1: 完全一致です。

  • 精度スコア: 0 (最低) から 1 (最高) の範囲の数値スコア。

    • precision = true positives / (true positives + false positives)

      • true positives: モデルがそれぞれの入力に対して指定されたラベルを予測した入力の数。

      • false positives: モデルがそれぞれの入力に対して指定されたラベルと一致しないラベルを予測した入力の数。

    • Studio 自動モデル評価ジョブでの精度スコアのデフォルト

      Studio を使用して自動モデル評価ジョブを作成すると、SageMaker AI は真陽性、偽陰性、偽陽性の合計数をカウントして、すべてのクラスの精度をグローバルに計算します。

    • fmeval ライブラリで利用可能な精度スコアのオプション

      fmeval ライブラリを使用すると、ClassificationAccuracyConfig パラメータを使用して精度スコアの計算方法を設定できます。以下のオペレーションがサポートされています。 

      • multiclass_average_strategy は、多クラス分類設定のクラス間でスコアを集計する方法を決定します。想定される値は、{'micro', 'macro', 'samples', 'weighted', 'binary'} または None (デフォルト値 ='micro') です。  デフォルトの場合の micro' では、真陽性、偽陰性、偽陽性の合計数をカウントして、すべてのクラスにわたって精度をグローバルに計算します。その他のオプションについては、「sklearn.metrics.precision_score」を参照してください。

        注記

        二項分類では、精度の従来の定義に対応する 'binary' 平均化戦略を使用することをお勧めします。

  • 再現率スコア: 0 (最低) から 1 (最高) の範囲の数値スコア。

    • recall = true positives / (true positives + false negatives)

      • true positives: モデルがそれぞれの入力に対して指定されたラベルを予測した入力の数。

      • false negatives: モデルがそれぞれの入力に対して指定されたラベルを予測できなかった入力の数。

    • Studio 自動モデル評価ジョブの再現率スコアのデフォルト

      Studio を使用して自動モデル評価ジョブを作成すると、SageMaker AI は真陽性、偽陰性、および偽陽性の合計数をカウントして、すべてのクラスにわたってリコールをグローバルに計算します。

    • fmeval ライブラリで利用可能な再現率スコアのオプション

      fmeval ライブラリを使用すると、ClassificationAccuracyConfig パラメータを使用して再現率スコアの計算方法を設定できます。以下のオペレーションがサポートされています。 

      • multiclass_average_strategy は、多クラス分類設定のクラス間でスコアを集計する方法を決定します。想定される値は、{'micro', 'macro', 'samples', 'weighted', 'binary'} または None (デフォルト値 ='micro') です。  デフォルトの場合の micro' では、真陽性、偽陰性、偽陽性の合計数をカウントして、すべてのクラスにわたって再現率をグローバルに計算します。その他のオプションについては、「sklearn.metrics.precision_score」を参照してください。

        注記

        二項分類では、再現率の従来の定義に対応する 'binary' 平均化戦略を使用することをお勧めします。

  • バランス分類精度: 0 (最低) から 1 (最高) の範囲の数値スコア。

    • 二項分類の場合: このスコアは精度と同じように計算されます。

    • 多クラス分類の場合: このスコアは、すべてのクラスの個別の再現率スコアを平均化します。

      • 次の出力例の場合:

        確認するテキスト グラウンドトゥルースラベル Class name 予測ラベル
        おいしいケーキです。リピートします。 3 ブラウニー 3
        美味なケーキです。お勧めです。 2 パウンドケーキ 2
        とても不味い。最低なケーキ 1 パウンドケーキ 2
        • クラス 1 の再現率: 0

        • クラス 2 の再現率: 1

        • クラス 3 の再現率: 1

        • バランス分類精度: (0+1+1)/3=0.66