ヒューマンワーカーを使用するモデル評価ジョブを作成する

重要

Amazon SageMaker Studio または Amazon SageMaker Studio Classic が Amazon SageMaker リソースを作成できるようにするカスタムIAMポリシーは、それらのリソースにタグを追加するアクセス許可も付与する必要があります。Studio と Studio Classic は、作成したリソースに自動的にタグ付けするため、リソースにタグを追加するアクセス許可が必要です。IAM ポリシーで Studio と Studio Classic がリソースの作成を許可しているが、タグ付けが許可されていない場合、リソースの作成を試みるとAccessDenied「」エラーが発生する可能性があります。詳細については、「リソースにタグ付けするための SageMakerアクセス許可を提供する」を参照してください。

AWS Amazon のマネージドポリシー SageMaker SageMaker リソースを作成するアクセス許可を付与するには、これらのリソースの作成中にタグを追加するアクセス許可が既に含まれています。

ヒューマンワーカーを使用するモデル評価ジョブを作成するには、適切なアクセス許可を持つように環境を設定する必要があります。次に、Studio のモデル評価ジョブウィザードを使用して、使用するモデルを選択し、モデル評価ジョブで使用するパラメータとワークフォースを定義できます。

ジョブが完了したら、レポートを表示して、選択したモデルをワークフォースがどのように評価したかを理解します。結果は、jsonlines出力ファイルとして Amazon S3 にも保存されます。

ヒューマンワーカーを使用するモデル評価ジョブでは、の外部でホストされるモデル SageMaker と、の外部でホストされるモデルから推論データを取得できます AWS。詳細については、「ヒューマンワーカーを使用するモデル評価ジョブでの独自の推論データの使用」を参照してください。

ジョブが完了すると、ジョブの作成時に指定された Amazon S3 バケットに結果が保存されます。結果を解釈する方法については、「」を参照してくださいモデル評価ジョブの結果を理解する。

前提条件

Amazon SageMaker Studio UI でモデル評価を実行するには、 (IAM) AWS Identity and Access Management ロールと入力データセットに正しいアクセス許可が必要です。 SageMaker ドメインまたはIAMロールがない場合は、「」のステップに従いますAmazon のセットアップガイド SageMaker。

アクセス許可の設定

次のセクションでは、Amazon S3 バケットを作成する方法と、正しいクロスオリジンリソース共有 (CORS) アクセス許可を指定する方法を示します。

Amazon S3 バケットを作成し、CORSアクセス許可を指定するには

で Amazon SageMaker コンソールを開きますhttps://console.aws.amazon.com/sagemaker/。
ナビゲーションペインで、ページ上部の検索バーS3にを入力します。
サービスで S3 を選択します。
ナビゲーションペインからバケットを選択します。
汎用バケットセクションの名前で、モデルの入出力をコンソールに保存するために使用する S3 バケットの名前を選択します。S3 バケットがない場合は、以下を実行します。
1. バケットの作成を選択して、新しいバケットの作成ページを開きます。
2. 全般設定セクションのAWS リージョン で、基盤モデルがあるリージョンを選択します AWS 。
3. バケット名の入力ボックスで S3 バケットに名前を付けます。
4. デフォルトの選択肢をすべて受け入れます。
5. [Create bucket] (バケットの作成) を選択します。
6. 汎用バケットセクションの名前 で、作成した S3 バケットの名前を選択します。
[アクセス許可] タブを選択します。
ウィンドウの下部にあるクロスオリジンリソース共有 (CORS） セクションまでスクロールします。[編集] を選択します。

以下は、Amazon S3 バケットに追加する必要がある最低限必要なCORSポリシーです。以下をコピーして入力ボックスに貼り付けます。


[
{
    "AllowedHeaders": ["*"],
    "AllowedMethods": [
        "GET",
        "HEAD",
        "PUT"
    ],
    "AllowedOrigins": [
        "*"
    ],
    "ExposeHeaders": [
      "Access-Control-Allow-Origin"
    ],
    "MaxAgeSeconds": 3000
}
]

[Save changes] (変更の保存) をクリックします。

IAM ポリシーにアクセス許可を追加するには

IAM ロールにアタッチするアクセス許可のレベルを検討することもできます。

このサービスに合わせて最低限必要なアクセス許可を許可するカスタムIAMポリシーを作成できます。
既存の AmazonSageMakerFullAccessおよび AmazonS3FullAccessポリシーを既存のIAMロールにアタッチできます。これはより許容されます。AmazonSageMakerFullAccess ポリシーの詳細については、「」を参照してくださいAmazonSageMakerFullAccess。

既存のポリシーをIAMロールにアタッチする場合は、ここで設定した手順をスキップし、IAMロールにアクセス許可を追加するの手順に従って続行できます。

次の手順では、最小限のアクセス許可でこのサービスに合わせてカスタマイズされたカスタムIAMポリシーを作成します。

で Amazon SageMaker コンソールを開きますhttps://console.aws.amazon.com/sagemaker/。
ページ上部の検索バーにと入力しますIAM。
サービスで、アイデンティティとアクセス管理 (IAM） を選択します。
ナビゲーションペインからポリシーを選択します。
[Create policy] を選択します。ポリシーエディタが開いたら、を選択しますJSON。

ポリシーエディタ に次のアクセス許可が表示されていることを確認します。ポリシーエディタ に以下をコピーして貼り付けることもできます。


{
"Version": "2012-10-17",
"Statement":
    [{
        "Effect": "Allow",
        "Action": [
            "s3:GetObject",
            "s3:PutObject",
            "s3:ListBucket"
        ],
        "Resource": [
            "arn:aws:s3:::{input_bucket}/*",
            "arn:aws:s3:::{input_bucket}",
            "arn:aws:s3:::{output_bucket}/*",
            "arn:aws:s3:::{output_bucket}",
            "arn:aws:s3:::jumpstart-cache-prod-{region}/*",
            "arn:aws:s3:::jumpstart-cache-prod-{region}"
        ]
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:CreateEndpoint",
            "sagemaker:DeleteEndpoint",
            "sagemaker:CreateEndpointConfig",
            "sagemaker:DeleteEndpointConfig"
        ],
        "Resource": [
            "arn:aws:sagemaker:{region}:{account-id}:endpoint/sm-margaret-*",
            "arn:aws:sagemaker:{region}:{account-id}:endpoint-config/sm-margaret-*"
        ],
        "Condition": {
            "ForAnyValue:StringEquals": {
                "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id"
            }
        }
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:DescribeProcessingJob",
            "sagemaker:DescribeEndpoint",
            "sagemaker:InvokeEndpoint"
        ],
        "Resource": "*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:DescribeInferenceComponent",
            "sagemaker:AddTags",
            "sagemaker:CreateModel",
            "sagemaker:DeleteModel"
        ],
        "Resource": "arn:aws:sagemaker:{region}:{account-id}:model/*",
        "Condition": {
            "ForAnyValue:StringEquals": {
                "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id"
            }
        }
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:DescribeFlowDefinition",
            "sagemaker:StartHumanLoop",
            "sagemaker:DescribeHumanLoop"
        ],
        "Resource": "*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "logs:CreateLogStream",
            "logs:PutLogEvents",
            "logs:CreateLogGroup",
            "logs:DescribeLogStreams"
        ],
        "Resource": "arn:aws:logs:{region}:{account-id}:log-group:/aws/sagemaker/ProcessingJobs:*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "cloudwatch:PutMetricData"
        ],
        "Resource":"*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "ecr:GetAuthorizationToken",
            "ecr:BatchCheckLayerAvailability",
            "ecr:GetDownloadUrlForLayer",
            "ecr:BatchGetImage"
        ],
        "Resource": "*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "kms:DescribeKey",
            "kms:GetPublicKey",
            "kms:Decrypt",
            "kms:Encrypt"
        ],
        "Resource": [
            "arn:aws:kms:{region}:{account-id}:key/{kms-key-id}"
        ]
    },
    {
        "Effect": "Allow",
        "Action": [
            "iam:PassRole"
        ],
        "Resource": "arn:aws:iam::{account-id}:role/{this-role-created-by-customer}",
        "Condition": {
            "StringEquals": {
                "aws:PrincipalAccount": [
                    "account-id"
                ]
            }
        }
    }]
}

[Next (次へ)] を選択します。
ポリシー名の下のポリシーの詳細セクションにポリシー名を入力します。オプションとして説明を入力することもできます。このポリシー名は、ロールに割り当てるときに検索します。
[Create policy] を選択します。

IAM ロールにアクセス許可を追加するには

で Amazon SageMaker コンソールを開きますhttps://console.aws.amazon.com/sagemaker/。
ページ上部の検索バーにと入力しますIAM。
サービスで、アイデンティティとアクセス管理 (IAM） を選択します。
ナビゲーションペインで [ロール] を選択します。
新しいロールを作成する場合：
1. [ロールの作成] を選択します。
2. 信頼されたエンティティの選択ステップで、信頼されたエンティティタイプでカスタム信頼ポリシー を選択します。
3. カスタム信頼ポリシーエディタで、プリンシパルの追加 の横にある の追加 を選択します。
4. プリンシパルの追加ポップアップボックスで、プリンシパルタイプでオプションのドロップダウンリストからAWS サービスを選択します。
5. で ARN を {ServiceName}に置き換えますsagemaker。
6. [プリンシパルを追加] を選択します。
7. [Next (次へ)] を選択します。
8. （オプション) アクセス許可ポリシーで、ロールに追加するポリシーを選択します。
9. （オプション) アクセス許可の境界を設定する - オプションでアクセス許可の境界設定を選択します。
10. [Next (次へ)] を選択します。
11. 名前、レビュー、作成のステップで、ロールの詳細にロール名と説明を入力します。
12. （オプション) タグの追加 - オプション で、新しいタグの追加を選択し、キーと値 - オプションペアを入力して、タグを追加できます。
13. 設定を確認します。
14. [ロールの作成] を選択します。
既存のロールにポリシーを追加する場合：
1. ロール名でロールの名前を選択します。メインウィンドウが変わり、ロールに関する情報が表示されます。
2. アクセス許可ポリシーセクションで、アクセス許可の追加 の横にある下矢印を選択します。
3. 表示されるオプションから、ポリシーのアタッチ を選択します。
4. 表示されるポリシーのリストから、で作成したポリシーを検索して選択します。IAMポリシーにアクセス許可を追加するには、ポリシー名の横にあるチェックボックスをオンにします。カスタムIAMポリシーを作成していない場合は、 AWS 提供された AmazonSageMakerFullAccess および AmazonS3FullAccessポリシーの横にあるチェックボックスを検索して選択します。IAM ロールにアタッチするアクセス許可のレベルを検討することもできます。カスタムIAMポリシーの指示は許容度が低く、後者はより許容度が高いです。AmazonSageMakerFullAccess ポリシーの詳細については、「」を参照してくださいAmazonSageMakerFullAccess。
5. [Add permissions (許可の追加)] を選択します。ページ上部のバナーには、ポリシーがロールに正常にアタッチされたことが明記されている必要があります。完了すると。

信頼ポリシーをIAMロールに追加するには

次の信頼ポリシーは、管理者がが SageMakerロールを引き受けることができるようにします。ポリシーをIAMロールに追加する必要があります。そのためには、次の手順を実行します。

で Amazon SageMaker コンソールを開きますhttps://console.aws.amazon.com/sagemaker/。
ページ上部の検索バーにと入力しますIAM。
サービスで、アイデンティティとアクセス管理 (IAM） を選択します。
ナビゲーションペインで [ロール] を選択します。
ロール名 でロールの名前を選択します。メインウィンドウが変わり、ロールに関する情報が表示されます。
信頼関係タブを選択します。
[信頼ポリシーを編集] を選択します。

次のポリシーが信頼ポリシーの編集 に表示されることを確認します。また、以下をコピーしてエディタに貼り付けることもできます。


{
"Version": "2012-10-17",
"Statement": [
    {
        "Sid": "",
        "Effect": "Allow",
        "Principal": {
            "Service": [
                "sagemaker.amazonaws.com"
            ]
        },
        "Action": "sts:AssumeRole"
    }
]
}

[ポリシーの更新] を選択します。ページ上部のバナーには、信頼ポリシーが更新されたことが表示されます。完了したら、

で利用可能なテキストベースのモデルを使用して人間の評価ジョブを作成する JumpStart か、以前にエンドポイントにデプロイした JumpStart モデルを使用できます。

を起動するには JumpStart

で Amazon SageMaker コンソールを開きますhttps://console.aws.amazon.com/sagemaker/。
ページ上部の検索バーにと入力しますSageMaker。
サービス で、Amazon SageMakerを選択します。
ナビゲーションペインから Studio を選択します。
ドメインを選択の下矢印を展開した後、開始するセクションからドメインを選択します。
ユーザープロファイルを選択の下矢印を展開した後、「開始方法」セクションからユーザープロファイルを選択します。
Open Studio を選択して Studio のランディングページを開きます。
ナビゲーションペインからジョブを選択します。

評価ジョブを設定するには

モデル評価ホームページで、モデルの評価を選択します。
ジョブの詳細を指定します。
1. モデル評価の評価名を入力します。この名前は、送信後にモデル評価ジョブを識別するのに役立ちます。
2. 説明を入力して、名前にコンテキストを追加します。
3. [Next (次へ)] を選択します。
評価の設定
1. 「評価タイプを選択」で、人間の横にあるラジオボタンを選択します。
2. 評価したいモデルを選択する (「モデルを評価に追加する」) の下にある「モデルを評価に追加する」を選択します。評価ごとに最大 2 つのモデルを評価できます。
  1. 事前トレーニング済み JumpStart モデルを使用するには、事前トレーニング済みJumpStart 基盤モデル を選択します。以前にエンドポイントにデプロイしたモデルを使用する場合は JumpStart、基盤モデルを持つ JumpStartエンドポイントを選択します。
  2. モデルに法的契約が必要な場合は、チェックボックスをオンにして同意していることを確認します。
  3. 別のモデルを追加する場合は、前のステップを繰り返します。
3. 推論選択中のモデルの動作を変更するには、パラメータを設定します。
  
  セットパラメータには、モデルの出力のランダム性の程度、モデルの出力の長さ、次にモデルが選択する単語に影響する推論パラメータのリストが含まれます。
4. 次に、タスクタイプ を選択します。次のいずれかを選択できます。
  - テキストの要約
  - 質問への回答 (Q&A)
  - テキスト分類
  - オープンエンド生成
  - カスタム
5. 評価メトリクスセクションで、評価ディメンションを選択し、説明のテキストボックスにディメンションに関する追加のコンテキストを入力します。次のディメンションから選択できます。
  - 流暢性 – 生成されたテキストの言語品質を測定します。
  - 一貫性 – 生成されたテキストの組織と構造を測定します。
  - 毒性 – 生成されたテキストの有害性を測定します。
  - 精度 – 生成されたテキストの精度を示します。
  - 作業チームの名前と説明を定義できるカスタム評価ディメンション。
    
    カスタム評価ディメンションを追加するには、以下を実行します。
    評価ディメンションの追加 を選択します。
    
    評価ディメンションを提供する を含むテキストボックスに、カスタムディメンションの名前を入力します。
    
    この評価ディメンションの説明を提供する を含むテキストボックスに説明を入力し、作業チームがカスタムディメンションを評価する方法を理解できるようにします。
  これらの各メトリクスの下には、メトリクスタイプを選択の下矢印から選択できるレポートメトリクスがあります。評価するモデルが 2 つある場合は、比較メトリクスまたは個別のレポートメトリクスを選択できます。評価するモデルが 1 つある場合は、個々のレポートメトリクスのみを選択できます。上記の各メトリクスについて、次のレポートメトリクスタイプを選択できます。
  - （比較) リッカートスケール - 比較 – 人間の評価者は、指示に従って 5 ポイントのリッカートスケールで 2 つのレスポンス間の好みを示します。最終レポートの結果は、データセット全体における評価者による回答のヒストグラムとして表示されます。評価者が期待どおりに回答を評価する方法を理解できるように、手順で 5 ポイントスケールの重要なポイントを定義します。Amazon S3 に保存されているJSON出力では、この選択はComparisonLikertScaleキー値ペアとして表されます"evaluationResults":"ComparisonLikertScale"。
  - （比較) 選択ボタン – 人間の評価者が、別の応答よりも優先する応答を示すことができます。評価者は、ラジオボタンを使用して、指示に従って 2 つのレスポンス間の好みを示します。最終レポートの結果は、各モデルでワーカーがより適切であると回答した割合として表示されます。評価方法を手順で明確に説明します。Amazon S3 に保存されているJSON出力では、この選択はComparisonChoiceキー値ペアとして表されます"evaluationResults":"ComparisonChoice"。
  - （比較) 順序ランク – 人間の評価者が、指示1に従って、からプロンプトに対して希望するレスポンスを順番にランク付けできるようにします。最終レポートの結果は、データセット全体における評価者による回答のランキングとして表示されます。命令でランクの1意味を定義します。Amazon S3 に保存されているJSON出力では、この選択はComparisonRankキー値ペアとして表されます"evaluationResults":"ComparisonRank"。
  - （個人) サムのアップ/ダウン — 人間の評価者が、指示に従ってモデルからの各レスポンスを許容可能または許容不可と評価できるようにします。最終レポートの結果は、評価総数に対する各モデルについて高く評価した評価者の割合として表示されます。この評価方法は、1 つまたは複数のモデルの評価に使用できます。2 つのモデルを含む評価でこれを使用すると、モデルレスポンスごとにサムアップまたはダウンが作業チームに表示され、最終レポートには各モデルの集計結果が個別に表示されます。手順で、サムアップまたはサムダウンの評価として許容されるものを定義します。Amazon S3 に保存されているJSON出力では、この選択はThumbsUpDownキー値ペアとして表されます"evaluationResults":"ThumbsUpDown"。
  - （個別) リッカートスケール - 個別 – 人間の評価者は、5 ポイントのリッカートスケールの指示に基づいてモデルレスポンスをどの程度強く承認するかを示すことができます。最終レポートの結果は、データセット全体の評価者からの 5 ポイント評価のヒストグラムとして表示されます。このスケールは、1 つ以上のモデルを含む評価に使用できます。複数のモデルを含む評価でこの評価方法を選択すると、モデルレスポンスごとに 5 ポイントの Likert スケールが作業チームに表示され、最終レポートには各モデルの集計結果が個別に表示されます。評価者が期待どおりに回答を評価する方法を理解できるように、手順で 5 ポイントスケールの重要なポイントを定義します。Amazon S3 に保存されているJSON出力では、この選択はIndividualLikertScaleキー値ペアとして表されます"evaluationResults":"IndividualLikertScale"。
6. プロンプトデータセット を選択します。このデータセットは必須であり、ヒューマンワークチームがモデルからのレスポンスを評価するために使用します。入力データセットファイル URIの S3 の下にあるテキストボックスにプロンプトデータセットを含む Amazon S3 バケットに S3 を指定します。 S3 URI UI がモデルの評価に使用するデータセットの部分を特定するには、データセットが jsonlines 形式であり、次のキーが含まれている必要があります。
  - prompt – モデルがレスポンスを生成するリクエスト。
  - （オプション) category – - プロンプトのカテゴリラベル。category キーはプロンプトを分類するために使用されるため、後で評価結果をカテゴリ別にフィルタリングして、評価結果をより深く理解できます。評価自体には参加せず、ワーカーは評価 UI では表示されません。
  - （オプション) referenceResponse – 人間の評価者のリファレンス回答。参照回答はワーカーによって評価されませんが、指示に基づいて、どの回答が許容可能か許容できないかを理解するために使用できます。
  - （オプション) responses – の外部 SageMaker または外部にあるモデルからの推論を指定するために使用されます AWS。
    
    このオブジェクトには、モデルを識別する文字列"modelIdentifierであり、モデルの推論"text"である 2 つの追加のキー値ペアが必要です。
    
    カスタムプロンプトデータセットのの入力で"responses"キーを指定する場合は、すべての入力でキーを指定する必要があります。
  - 次のjsonコード例は、カスタムプロンプトデータセットで受け入れられたキーと値のペアを示しています。レスポンスキーが指定されている場合は、独自の推論の持ち込みチェックボックスをオンにする必要があります。オンにした場合、responsesキーは常に各プロンプトで指定する必要があります。次の例は、質問と回答のシナリオで使用できます。
```
{
    "prompt": {
        "text": "Aurillac is the capital of"
    },
    "category": "Capitals",
    "referenceResponse": {
        "text": "Cantal"
    },
    "responses": [
        // All responses must come from a single model. If specified it must be present in all JSON objects. modelIdentifier and text are then also required.
        {
            "modelIdentifier": "meta-textgeneration-llama-codellama-7b",
            "text": "The capital of Aurillac is Cantal."
        }
    ]
}
```
7. 出力評価結果を保存する S3 バケットの場所を、「評価結果を保存する S3 の場所を選択する」のテキストボックスに入力します。この S3 ロケーションに書き込まれる出力ファイルは、拡張子で終わるJSON形式になります.json。
8. 注記
  モデル評価ジョブに独自の推論データを含める場合は、1 つのモデルのみを使用できます。
  
  （オプション) 「独自の推論を行う」のチェックボックスをオンにして、プロンプトデータセットに responses キーが含まれていることを示します。プロンプトの一部としてresponsesキーを指定する場合は、そのキーがすべてに存在する必要があります。
9. 次のパラメータを使用して、プロセッサ設定セクションでプロセッサを設定します。
  - インスタンス数を使用して、モデルの実行に使用するコンピューティングインスタンスの数を指定します。を超える1インスタンスを使用する場合、モデルは並列インスタンスで実行されます。
  - インスタンスタイプを使用して、モデルの実行に使用するコンピューティングインスタンスのタイプを選択します。 AWS には、コンピューティングとメモリ用に最適化された一般的なコンピューティングインスタンスとインスタンスがあります。インスタンスタイプの詳細については、Studio Classic で使用できるインスタンスタイプ「」を参照してください。
  - デフォルトの AWS マネージドサービスキーの代わりに独自の AWS Key Management Service （AWS KMS) 暗号化キー SageMaker を使用する場合は、ボリュームKMSキー でオンを選択してキーを入力します AWS KMS 。 SageMaker は AWS KMS キーを使用してストレージボリューム上のデータを暗号化します。キーの詳細については、「」を参照してくださいAWS Key Management Service。
  - デフォルトの AWS マネージドサービスキーの代わりに独自の AWS Key Management Service （AWS KMS) 暗号化キー SageMaker を使用する場合は、出力KMSキーでオンを選択して AWS KMS キーを入力します。 SageMaker は AWS KMS キーを使用して処理ジョブ出力を暗号化します。
  - IAM ロールを使用して、デフォルトのプロセッサのアクセスとアクセス許可を指定します。「人間による評価の実行」セクションIAMで設定したIAMロールを入力します。
10. モデルと条件を指定したら、次へを選択します。

作業チームは、モデルを評価している人で構成されます。作業チームの作成後は無期限に保持されるため、属性を変更することはできません。以下は、作業チームを開始する方法を示しています。

作業チームをセットアップする

既存のチームを選択するか、チームの選択入力テキストボックスで新しいチームを作成します。
組織名 で組織名を指定します。このフィールドは、アカウントで最初の作業チームを作成する場合にのみ表示されます。
問い合わせ E メールを指定します。ワーカーは、この E メールを使用して、提供する評価タスクについて連絡します。このフィールドは、アカウントで最初の作業チームを作成する場合にのみ表示されます。
チーム名 を指定します。この名前は後で変更することはできません。
大規模言語モデルを評価する各ヒューマンワーカーの E メールアドレスのリストを指定します (LLM）。チームの E メールアドレスを指定すると、新しいジョブがワークチームに新しく追加された場合にのみ通知されます。後続のジョブに同じチームを使用する場合は、手動で通知する必要があります。
次に、プロンプトあたりのワーカー数を指定します。

作業チームに指示を提供する

人間のワークフォースがモデルをメトリクスと標準に評価できるように、詳細な手順を提供します。メインウィンドウのテンプレートには、指定できるサンプル手順が表示されます。指示を与える方法の詳細については、「適切なワーカー指示の作成」を参照してください。
人間による評価のバイアスを最小限に抑えるには、応答位置をランダム化 の横にあるチェックボックスをオンにします。
[次へ] を選択します。

ヒューマンジョブに対して行った選択の概要を確認できます。ジョブを変更する必要がある場合は、戻るを選択して前の選択に戻ります。

評価ジョブリクエストを送信し、ジョブの進行状況を表示する

評価ジョブリクエストを送信するには、リソースの作成 を選択します。
すべてのジョブのステータスを確認するには、ナビゲーションペインでジョブを選択します。次に、モデル評価 を選択します。評価ステータスは、完了、失敗、または進行中 と表示されます。

以下も表示されます。
- SageMaker および Amazon Bedrock でモデル評価を実行するサンプルノートブック。
- モデル評価プロセスに関するドキュメント、動画、ニュース、ブログなどの追加情報へのリンク。
- からプライベートワーカーポータルURLへのも利用できます。
Name でモデル評価を選択すると、評価の概要が表示されます。
- 概要には、ジョブのステータス、どのモデルに対してどのような評価タスクを実行したか、いつ実行したかに関する情報が表示されます。概要に従って、人間の評価スコアがメトリクス別にソートおよび要約されます。

ヒューマンワーカーを使用するモデル評価ジョブのレポートカードを表示する

ジョブのレポートを表示するには、ナビゲーションペインでジョブを選択します。
次に、モデル評価 を選択します。モデル評価ホームページの 1 つで、テーブルを使用してモデル評価ジョブを検索します。ジョブステータスが完了に変更されると、レポートカードを表示できます。
レポートカードにモデル評価ジョブの名前を選択します。

ヒューマンワーカーを使用するモデル評価ジョブを作成する場合、独自の推論データを持ち込むオプションがあり、ヒューマンワーカーにその推論データを、他の 1 つの JumpStart モデルまたはエンドポイントにデプロイした JumpStart モデルによって生成されたデータと比較させることができます。

このトピックでは、推論データに必要な形式と、そのデータをモデル評価ジョブに追加する方法の簡単な手順について説明します。

プロンプトデータセット を選択します。このデータセットは必須であり、ヒューマンワークチームがモデルからのレスポンスを評価するために使用します。S3 の場所を選択して評価結果を保存する」のテキストボックスにプロンプトデータセットを含む URI Amazon S3 バケットに S3 を指定します。 S3 データセットは .jsonl 形式である必要があります。各レコードは有効なJSONオブジェクトであり、次の必須キーが含まれている必要があります。

prompt – モデルに渡されるテキストを含むJSONオブジェクト。
（オプション) category – - プロンプトのカテゴリラベル。category キーはプロンプトを分類するために使用されるため、後で評価結果をカテゴリ別にフィルタリングして、評価結果をより深く理解できます。評価自体には参加せず、ワーカーは評価 UI では表示されません。
（オプション) referenceResponse – 人間の評価者の参照回答を含むJSONオブジェクト。参照回答はワーカーによって評価されませんが、指示に基づいてどのレスポンスが許容可能か許容できないかを理解するために使用できます。
responses – の外部 SageMaker または外部にあるモデルからの個々の推論を指定するために使用されます AWS。

このオブジェクトでは、モデルを識別する文字列"modelIdentifierであり、モデルの推論"text"である追加のキー値ペアが必要です。

カスタムプロンプトデータセットのの入力で"responses"キーを指定する場合は、すべての入力でキーを指定する必要があります。

次のjsonコード例は、独自の推論データを含むカスタムプロンプトデータセットで受け入れられたキーと値のペアを示しています。


{
    "prompt": {
        "text": "Who invented the airplane?"
    },
    "category": "Airplanes",
    "referenceResponse": {
        "text": "Orville and Wilbur Wright"
    },
    "responses":
        // All inference must come from a single model
        [{
            "modelIdentifier": "meta-textgeneration-llama-codellama-7b" ,
            "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane."
        }]

}

Studio を起動するには、プライマリナビゲーションのジョブでモデル評価を選択します。

独自の推論データをヒューマンモデル評価ジョブに追加するには。

ステップ 1: ジョブの詳細を指定すると、モデル評価ジョブの名前とオプションの説明が追加されます。
ステップ 2: 評価を設定する 「人間」を選択します。
次に、評価したいモデルを選択 (Select the model) で、使用するモデルを選択できます。デプロイ済みの JumpStart モデルを使用するか、トレーニング済みの Jumpstart 基盤モデル を選択できます。
次に、タスクタイプ を選択します。
次に、評価メトリクス を追加できます。
次に、プロンプトデータセットの「独自の推論を行う」のチェックボックスをオンにして、プロンプトにレスポンスキーがあることを示します。
次に、モデル評価ジョブのセットアップを続行します。

ヒューマンワーカーを使用するモデル評価ジョブからのレスポンスを保存する方法の詳細については、「」を参照してください。人間の評価ジョブの結果を理解する

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

有害性

自動モデル評価