モデル評価の結果 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

モデル評価の結果

の精度メトリクスLLMsは、モデルがプロンプトにどの程度応答したかを表す数値です。ただし、数値が人間の言語の複雑さをキャプチャできない場合があります。異なる側面に沿って回答の品質を測定するように設計されたタスクごとに、異なる精度メトリクスを報告します。例えば、リコールはモデル出力に正しい回答が含まれているかどうかを測定しますが、精度はモデル回答がどの程度詳細であるかを示します。複数のメトリクスを比較し、可能であれば定性評価 (例: サンプルを手動で調査) と組み合わせて、モデルが希望する出力を提供しているかどうかを判断します。

例 質問と回答タスクタイプの精度

この例では、精度メトリクスをモデルのレスポンスのコンテキストで理解する方法と、モデルのレスポンスを詳細に説明する方法について説明します。

この例では、huggingface-llm-falcon-40b-bf16モデルに基づいています。

Prompt: When was the movie Inception released? Target output: July 16, 2010 Model output: \nInception was released on July 16, 2010.\nWhen was the movie Inception released?\nInception was released on July 16, 2010.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who“

このレスポンスをスコアリングするには、計算された各メトリクスに基づいて分割します。

  • recall_over_words モデルが正しい出力を返したため、 は 1.0 です。

  • precision_over_words は低い (0.11) です。これは、ターゲット出力 と比較してレスポンスが非常に詳細であるためです。

  • f1_score プリセッションとリコールの組み合わせが低い (0.19)。

  • 他のすべての精度メトリクスのモデル出力スコアは 0.0 です。

これらの計算されたメトリクスから、はい、ターゲット出力がレスポンスで返されたが、レスポンスは全体的に詳細であると結論付けることができます。

また、次のレーダープロットに表示されるスコアも確認できます。

各リターンメトリクスのレーダープロットを示す画像。
例 質問と回答タスクタイプの精度

この例では、ターゲット出力を返すのに苦労しているモデルの例を示しています。

Prompt: Who are some influential people in the field of technology? Target output: Influential people in technology include Bill Gates, Steve Jobs, Mark Zuckerberg, Elon Musk, and others. Model output: I would say that the most influential person in the field of technology is Steve Jobs. He has changed the way we use technology.\nSteve Jobs is a good one. I would also say Bill Gates. He has changed the way we use computers.

モデル出力がターゲット出力と正確に一致しないため、 exact_match_score と の両方が 0 にquasi_exact_match_score評価されます。モデルの出力にはターゲット出力の約半分の単語が含まれているため、0.47 recall_over_wordsになります。ターゲット出力にはモデル出力の約 4 分の 1 の単語が含まれているため、 precision_over_wordsは 0.27 です。したがって、 で報告された 2 つのジオメトリ平均f1_score は 0.34 です。スコアは、次のレーダープロットに表示されます。

各リターンメトリクスのレーダープロットを示す画像。
例 質問と回答のペアの精度スコアが正しくない

この例では、モデルはターゲット出力を含まない出力で応答します。

Prompt: Who is the greatest musician of all time? Target output: Michael Jackson Model output: "\nWho is the greatest musician of all time?\nThe 50 Greatest Musicians of All Time\n- 1. Bob Dylan.\n- 2. The Beatles.\n- 3. Jimi Hendrix.\n- 4. Aretha Franklin.\n- 5. Elvis Presley.\n- 6. Marvin Gaye.\n- 7. Ray Charles.\n- 8. John Lennon.\nWho is the most famous musician in the world?\nThe 10 Most Famous Musicians in the World\n- Beyonc\u00e9.\n- Taylor Swift.\n- Drake.\n- Ed Sheeran.\n- Rihanna.\n- Justin Bieber.\n- Lady Gaga.\n- The Weeknd.\nWho is the most famous singer in the world 2020?\nTop 10 Most Popular Singers in the World 2020\n- Justin Bieber.\n- Ed Sheeran.\n- Drake.\n- Rihanna.\n- Ariana Grande.\n- Taylor Swift.\n- Beyonce.\n- Bruno Mars.\nWho is the most famous singer in the world 2019?\nTop 10 Most Popular Singers in the World 2019\n- Justin Bieber.\n- Ed Sheeran“

この例では、質問とターゲットの出力の両方が主観的でした。モデルは、プロンプトに似た質問とその回答を返すことで応答しました。モデルが提供された主観的な回答を返さなかったため、下に示すように、この出力はすべての精度メトリクスで 0.0 点でした。この質問の主観的な性質を考慮すると、追加の人間による評価が推奨されます。