Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

自動評価ジョブの結果を理解する

フォーカスモード
自動評価ジョブの結果を理解する - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

自動モデル評価ジョブが完了すると、結果は Amazon S3 に保存されます。以下のセクションでは、生成されるファイルとその解釈方法について説明します。

output.json ファイルの構造を解釈する

output.json ファイルには、選択したデータセットとメトリクスの集計スコアが含まれます。

出力の例は、次のとおりです。

{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }

インスタンス単位の結果ファイルの構造を解釈する

各 jsonlines リクエストのインスタンス単位の結果は、1 つの evaluation_name_dataset_name.jsonl ファイルに含まれます。jsonlines 入力データに 300 のリクエストがある場合、この jsonlines 出力ファイルには 300 の応答が含まれます。出力ファイルには、モデルに対して行われたリクエストとその評価のスコアが含まれます。インスタンス単位の出力の例は、以下のとおりです。

レポートの解釈

評価レポートには、基盤モデル評価ジョブの結果が含まれます。評価レポートのコンテンツは、モデル評価に使用したタスクのタイプによって異なります。各レポートには、次のセクションが含まれます。

  1. 評価タスクで適切となった各評価の全体的なスコア。単一のデータセットを使用した単一の評価の例として、分類タスクのモデルを精度とセマンティックの頑健性について評価した場合、精度と精度のセマンティックの頑健性の評価結果をまとめた表がレポートの上部に表示されます。別のデータセットを使用した別の評価では、構造が異なる場合があります。

  2. モデル名、タイプ、使用された評価方法、モデル評価対象で使用したデータセットなどの評価ジョブの設定。

  3. 評価アルゴリズムの概要、組み込みデータセットに関する情報とリンク、スコアの計算方法、サンプルデータと関連するスコアを含むテーブルを提供する [詳細な評価結果] セクション。

  4. 完了しなかった評価のリストを含む [失敗した評価] セクション。失敗した評価がない場合は、レポートのこのセクションは省略されます。

プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.