ヒューマンワーカーによるモデル評価ジョブの作成 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ヒューマンワーカーによるモデル評価ジョブの作成

ヒューマンワーカーを使用するモデル評価ジョブでは、最大 2 つのモデルからのレスポンスを評価および比較できます。推奨メトリクスのリストから選択することも、自分で定義したメトリクスを使用することもできます。 AWS アカウント ごとに、 で進行中のヒューマンワーカーを使用するモデル評価ジョブを最大 20 個作成できます AWS リージョン。

使用するメトリクスごとに、[評価方法] を定義する必要があります。評価方法は、人間のワーカーが選択したモデルから表示されるレスポンスを評価する方法を定義します。利用可能なさまざまな評価方法と、ワーカー向けの高品質の指示を作成する方法の詳細については、「」を参照してくださいAmazon Bedrock で作業チームを作成し管理する

前提条件

以下の手順を完了するには、次の条件を満たす必要があります。Amazon Bedrock コンソールで作成されたモデル評価ジョブでは、ジョブの作成時に指定された Amazon S3 バケットでCORSアクセス許可を設定する必要があります。

ヒューマンワーカーを使用するモデル評価ジョブでは、組み込みデータセットはサポートされていません。カスタムプロンプトデータセットの作成の詳細については、「」を参照してくださいヒューマンワーカーを使用するモデル評価ジョブでのカスタムプロンプトデータセットの要件

  1. Amazon Bedrock のモデルへのアクセスが許可されていること。

  2. Amazon Bedrock サービスロールがあること。サービスロールがまだ作成されていない場合は、モデル評価ジョブの設定中に Amazon Bedrock コンソールで作成できます。アタッチされたポリシーは、モデル評価ジョブで使用される S3 バケット、およびジョブで指定されたARNsモデルの へのアクセスを許可する必要があります。また、ポリシーで定義されている sagemaker:StartHumanLoopsagemaker:StopHumanLoopsagemaker:DescribeHumanLoopおよび sagemaker:DescribeFlowDefinition SageMaker IAMアクションも必要です。サービスロールには、ロールの信頼ポリシーでサービスプリンシパルとして Amazon Bedrock が定義されている必要もあります。詳細については、「サービスロール」を参照してください。

  3. Amazon SageMaker サービスロールが必要です。サービスロールがまだ作成されていない場合は、モデル評価ジョブの設定中に Amazon Bedrock コンソールで作成できます。アタッチされたポリシーは、次のリソースとIAMアクションへのアクセスを許可する必要があります。モデル評価ジョブで使用されるすべての S3 バケット。ロールの信頼ポリシーでは、 がサービスプリンシパルとして SageMaker 定義されている必要があります。詳細については、「必要なアクセス許可」を参照してください。

  4. Amazon Bedrock コンソールにアクセスするユーザー、グループ、またはロールには、必要な Amazon S3 バケットにアクセスするために必要な権限が必要です。

  5. 出力 Amazon S3 バケット、およびカスタムプロンプトデータセットバケットには、必要なCORSアクセス許可を追加する必要があります。必要なCORSアクセス許可の詳細については、「」を参照してくださいS3 バケットで必要なクロスオリジンリソース共有 (CORS) アクセス許可

チュートリアル: ヒューマンワーカーを使用するモデル評価の作成

次のチュートリアルを使用して、ヒューマンワーカーを使用するモデル評価ジョブを作成します。

Amazon Bedrock コンソールを使用したモデル評価ジョブの結果の表示

モデル評価ジョブが完了すると、結果は指定した Amazon S3 バケットに保存されます。結果の場所を何らかの方法で変更すると、モデル評価レポートカードはコンソールに表示されなくなります。

ヒューマンワーカーによるモデル評価ジョブを作成するには
  1. Amazon Bedrock コンソールを開く: https://console.aws.amazon.com/bedrock/home

  2. ナビゲーションペインで、[モデル評価] を選択します。

  3. 「評価カードの構築」の「人間: 自分のチームを持ち込む」で「人間ベースの評価を作成する」を選択します。

  4. [ジョブの詳細の指定] ページに次の情報を入力します。

    1. 評価名 — モデル評価ジョブを説明する名前を付けます。この名前はモデル評価ジョブリストに表示されます。名前は、 の AWS アカウント で一意である必要があります AWS リージョン。

    2. 説明 (オプション) — オプションで説明を入力します。

  5. [次へ] を選択します。

  6. [評価を設定] ページに次の情報を入力します。

    1. モデル — モデル評価ジョブで使用するモデルを最大 2 つまで選択できます。

      Amazon Bedrock で使用可能なモデルの詳細については、「Amazon Bedrock 基盤モデルへのアクセスを管理する」を参照してください。

    2. (オプション) 選択したモデルの推論設定を変更するには、 の更新を選択します。

      推論設定を変更すると、選択したモデルによって生成されるレスポンスが変わります。使用可能な推論パラメータの詳細については、「基盤モデルの推論パラメータ」を参照してください。

    3. タスクタイプ — モデル評価ジョブ中にモデルに実行させるタスクタイプを選択します。モデルに関するすべての指示をプロンプト自体に含める必要があります。タスクタイプはモデルのレスポンスを制御しません。

    4. 評価メトリクス — 推奨メトリクスのリストは、選択したタスクによって変わります。推奨メトリクスごとに、[評価方法] を選択する必要があります。モデル評価ジョブあたりの最大評価メトリクス数は 10 個です。

    5. (オプション) 新しいメトリクスを追加するには、新しいメトリクスを追加を選択します。[メトリクス][説明][評価方法] を定義する必要があります。

    6. データセットカードでは、以下を指定する必要があります。

      1. プロンプトデータセットの選択 – プロンプトデータセットファイルの S3 URIを指定するか、S3 を参照を選択して、使用可能な S3 バケットを表示します。カスタムプロンプトデータセットには、最大 1000 個のプロンプトを含めることができます。

      2. 評価結果の送信先 – モデル評価ジョブの結果を保存するディレクトリURIの S3 を指定するか、S3 を参照を選択して使用可能な S3 バケットを表示する必要があります。

    7. (オプション) AWS KMS キー – モデル評価ジョブの暗号化に使用するカスタマーマネージドキーARNの を指定します。

    8. Amazon Bedrock IAMロール – アクセス許可カードでは、次の操作を行う必要があります。モデル評価に必要なアクセス許可の詳細については、「モデル評価ジョブを作成するために必要なアクセス許可とIAMサービスロール」を参照してください。

      1. 既存の Amazon Bedrock サービスロールを使用するには、既存のロールを使用する を選択します。それ以外の場合は、新しいロールの作成を使用して、新しいIAMサービスロールの詳細を指定します。

      2. サービスロール名 で、IAMサービスロールの名前を指定します。

      3. 準備ができたら、ロールの作成を選択して新しいIAMサービスロールを作成します。

  7. [次へ] を選択します。

  8. [アクセス許可] カードで、以下を指定します。モデル評価に必要なアクセス許可の詳細については、「モデル評価ジョブを作成するために必要なアクセス許可とIAMサービスロール」を参照してください。

  9. ヒューマンワークフローIAMロール – SageMaker必要なアクセス許可を持つサービスロールを指定します。

  10. [作業チーム] カードで、以下を指定します。

    ヒューマンワーカーの通知要件

    モデル評価ジョブに新しいヒューマンワーカーを追加すると、モデル評価ジョブへの参加を勧めるメールがヒューマンワーカーに自動的に送信されます。既存のヒューマンワーカーをモデル評価ジョブに追加するときは、URLモデル評価ジョブのワーカーポータルを通知して提供する必要があります。既存のワーカーには、新しいモデル評価ジョブに追加されたことを知らせる自動Eメール通知は送信されません。

    1. [チームを選択] ドロップダウンで、[新しい作業チームを作成] を選択するか、既存の作業チーム名を指定します。

    2. (オプション) [プロンプト別ワーカー数] — 各プロンプトを評価するワーカーの数を更新します。選択したワーカー数による各プロンプトのレスポンスのレビューが完了すると、プロンプトとそのレスポンスは作業チームから配布されなくなります。最終結果レポートには、すべてのワーカーの評価が含まれます。

    3. (オプション) 既存のワーカー E メール – ワーカーポータル を含む E メールテンプレートをコピーするには、このオプションを選択しますURL。

    4. (オプション) 新しいワーカーの E メール — 新しいワーカーに自動的に送信される E メールを表示します。

      重要

      大規模言語モデルでは、ハルシネーションが起きたり、有害または攻撃的なコンテンツが作成されたりすることが知られています。この評価では、ワーカーに有害または攻撃的な内容が表示されることがあります。評価を始める前に、適切な措置を講じてトレーニングを行い、その旨を通知します。評価中は、人間による評価ツールにアクセスしている間、タスクを辞退してタスクをリリースすることや休憩を取ることもできます。

  11. [次へ] を選択します。

  12. [指示を入力] ページに、テキストエディタを使用して、タスクを完了するための指示を入力します。作業チームがレスポンスを評価するために使用する評価 UI (メトリクス、評価方法、指示など) をプレビューできます。このプレビューは、このジョブ用に作成した設定に基づいています。

  13. [次へ] を選択します。

  14. [確認して作成] ページでは、前の手順で選択したオプションの概要を確認できます。

  15. モデル評価ジョブを開始するには、[作成] を選択します。

ジョブが正常に開始されると、ステータスが [進行中] に変わります。ジョブが終了すると、ステータスが [完了] に変わります。モデル評価ジョブがまだ進行中である間、すべてのモデルのレスポンスが作業チームによって評価される前に、ジョブを停止することを選択できます。これを行うには、モデル評価ランディングページで評価を停止を選択します。これにより、モデル評価ジョブのステータスの停止に変わります。モデル評価ジョブが正常に停止したら、モデル評価ジョブを削除できます。

モデル評価ジョブの結果を評価、表示、ダウンロードする方法については、「モデル評価ジョブの結果」を参照してください。