自動評価ジョブの結果を理解する

PDF

RSS

フォーカスモード

自動評価ジョブの結果を理解する - Amazon SageMaker AI

output.json ファイルの構造を解釈するインスタンス単位の結果ファイルの構造を解釈するレポートの解釈

自動モデル評価ジョブが完了すると、結果は Amazon S3 に保存されます。以下のセクションでは、生成されるファイルとその解釈方法について説明します。

`output.json` ファイルの構造を解釈する

output.json ファイルには、選択したデータセットとメトリクスの集計スコアが含まれます。

出力の例は、次のとおりです。


{
    "evaluations": [{
        "evaluation_name": "factual_knowledge",
        "dataset_name": "trex",
		## The structure of the prompt template changes based on the foundation model selected
		"prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]",
        "dataset_scores": [{
            "name": "factual_knowledge",
            "value": 0.2966666666666667
        }],
        "category_scores": [{
                "name": "Author",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.4117647058823529
                }]
            },
				....
            {
                "name": "Capitals",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.2857142857142857
                }]
            }
        ]
    }]
}

インスタンス単位の結果ファイルの構造を解釈する

各 jsonlines リクエストのインスタンス単位の結果は、1 つの evaluation_name_dataset_name.jsonl ファイルに含まれます。jsonlines 入力データに 300 のリクエストがある場合、この jsonlines 出力ファイルには 300 の応答が含まれます。出力ファイルには、モデルに対して行われたリクエストとその評価のスコアが含まれます。インスタンス単位の出力の例は、以下のとおりです。

レポートの解釈

評価レポートには、基盤モデル評価ジョブの結果が含まれます。評価レポートのコンテンツは、モデル評価に使用したタスクのタイプによって異なります。各レポートには、次のセクションが含まれます。

評価タスクで適切となった各評価の全体的なスコア。単一のデータセットを使用した単一の評価の例として、分類タスクのモデルを精度とセマンティックの頑健性について評価した場合、精度と精度のセマンティックの頑健性の評価結果をまとめた表がレポートの上部に表示されます。別のデータセットを使用した別の評価では、構造が異なる場合があります。
モデル名、タイプ、使用された評価方法、モデル評価対象で使用したデータセットなどの評価ジョブの設定。
評価アルゴリズムの概要、組み込みデータセットに関する情報とリンク、スコアの計算方法、サンプルデータと関連するスコアを含むテーブルを提供する [詳細な評価結果] セクション。
完了しなかった評価のリストを含む [失敗した評価] セクション。失敗した評価がない場合は、レポートのこのセクションは省略されます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

人間による評価ジョブの結果を理解する

fmeval ライブラリを使用する

このページの内容

Cookie の設定を選択する

Cookie の設定をカスタマイズする

Essential

Performance

Functional

Advertising

Cookie の設定を保存できません

自動評価ジョブの結果を理解する

`output.json` ファイルの構造を解釈する

インスタンス単位の結果ファイルの構造を解釈する

レポートの解釈

このページの内容

Related resources

このページは役に立ちましたか?

Related resources

次のトピック

前のトピック:

ヘルプが必要ですか?