翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
適切なワーカー指示書を作成する
モデル評価ジョブに適切な指示書を作成することで、タスクの完了におけるワーカーの正解率が向上します。モデル評価ジョブの作成時にコンソールに表示されるデフォルトの指示書を変更できます。この指示書は、ラベリングタスクが完了した UI ページでワーカーに表示されます。
ワーカーが割り当てられたタスクを完了しやすくするため、2 つの場所に指示を追加することができます。
各評価方法についてわかりやすい説明を記載する
説明には、選択したメトリクスを簡潔に説明する必要があります。メトリクスを詳しく説明し、選択した評価方法をワーカーにどのように評価してもらいたいかを明確にします。ワーカー UI での各評価方法の表示例については、「使用可能な評価方法の概要 」を参照してください。
ワーカーに全体的な評価指示を伝える
これらの指示書は、ワーカーがタスクを完了するのと同じウェブページに表示されます。このスペースでは、モデル評価タスクの大まかな方向性を示したり、プロンプトデータセットに含めている場合は、グラウンドトゥルースレスポンスについて説明したりすることができます。
使用可能な評価方法の概要
以下の各セクションでは、評価 UI で作業チームに表示される評価方法の例、およびその結果が Amazon S3 にどのように保存されるかについて説明します。
リッカート尺度、複数のモデル出力の比較
評価者は、モデルからの 2 つのレスポンスのどちらを優先するかを、指示に従って 5 段階のリッカート尺度で示します。最終レポートの結果は、データセット全体における評価者による回答のヒストグラムとして表示されます。
評価者が期待されるレスポンスの評価方法を理解できるように、指示書には必ず 5 段階評価の重要点を定義します。
JSON 出力
evaluationResults
の下の最初の子キーは、選択した評価方法が返される場所を示します。Amazon S3 バケットに保存された出力ファイルでは、各ワーカーの結果が "evaluationResults": "comparisonLikertScale"
キーと値のペアに保存されます。
選択ボタン (ラジオボタン)
選択ボタンを使用すると、評価者はある回答と別の回答の適切さを評価することができます。評価者は、指示に従って 2 つの回答のどちらを選択するかをラジオボタンで示します。最終レポートの結果は、各モデルでワーカーがより適切であると回答した割合として表示されます。評価方法については、指示書で明確に説明します。
JSON 出力
evaluationResults
の下の最初の子キーは、選択した評価方法が返される場所を示します。Amazon S3 バケットに保存された出力ファイルでは、各ワーカーの結果が "evaluationResults": "comparisonChoice"
キーと値のペアに保存されます。
序数ランク
序数ランクを使用すると、評価者はプロンプトに対するレスポンスの適切さを、指示に従って 1 から順番にランク付けできます。最終レポートの結果は、データセット全体における評価者による回答のランキングとして表示されます。ランク 1 が何を意味するかを、必ず指示書で定義します。
JSON 出力
evaluationResults
の下の最初の子キーは、選択した評価方法が返される場所を示します。Amazon S3 バケットに保存された出力ファイルでは、各ワーカーの結果が "evaluationResults": "comparisonRank"
キーと値のペアに保存されます。
高く評価/低く評価
高く評価/低く評価を使用すると、評価者はモデルの各レスポンスを、指示に従って許容できる/許容できないを評価できます。最終レポートの結果は、評価総数に対する各モデルについて高く評価した評価者の割合として表示されます。この評価方法は、1 つまたは複数のモデルの評価に使用できます。この評価方法を 2 つのモデルを含む評価に使用すると、作業チームにはモデルのレスポンスごとに高く評価/低く評価が提示され、最終レポートには各モデルの集計結果が個別に表示されます。指示書には、何が許容できるか (高く評価) を必ず定義します。
JSON 出力
evaluationResults
の下の最初の子キーは、選択した評価方法が返される場所を示します。Amazon S3 バケットに保存された出力ファイルでは、各ワーカーの結果が "evaluationResults": "thumbsUpDown"
キーと値のペアに保存されます。
リッカート尺度、単一モデルのレスポンスの評価
指示に基づいて、評価者はモデルのレスポンスをどの程度承認したかを 5 段階のリッカート尺度で示すことができます。最終レポートの結果は、データセット全体における評価者による 5 段階のヒストグラムとして表示されます。この評価方法は、1 つまたは複数のモデルの評価に使用できます。この評価方法を 1 つまたは複数のモデルを含む評価に使用すると、作業チームにはモデルのレスポンスごとに 5 段階のリッカート尺度が提示され、最終レポートには各モデルの集計結果が個別に表示されます。評価者が期待されるレスポンスの評価方法を理解できるように、指示書には必ず 5 段階評価の重要点を定義します。
JSON 出力
evaluationResults
の下の最初の子キーは、選択した評価方法が返される場所を示します。Amazon S3 バケットに保存された出力ファイルでは、各ワーカーの結果が "evaluationResults": "individualLikertScale"
キーと値のペアに保存されます。