自動モデル評価ジョブの作成 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

自動モデル評価ジョブの作成

自動モデル評価では、推奨メトリクスを使用して 1 つのモデルからのレスポンスを評価できます。組み込みのプロンプトデータセットを使用することも、独自のカスタムプロンプトデータセットを使用することもできます。各 AWS リージョンのアカウントで、最大 10 個の進行中自動モデル評価ジョブを持つことができます。

自動モデル評価ジョブを設定すると、選択したタスクタイプに最も適した使用可能なメトリクスと組み込みデータセットが自動的にジョブに追加されます。事前に選択したメトリクスやデータセットを追加または削除できます。独自のカスタムプロンプトデータセットを指定することもできます。

前提条件

Amazon Bedrock コンソールを使用して最初のモデル評価ジョブを作成するには、次の を実行する必要があります。

注記

Amazon Bedrock コンソールを使用してモデル評価ジョブを作成する場合は、指定した Amazon S3 バケットに正しいCORSアクセス許可を設定する必要があります。

  1. Amazon Bedrock のモデルへのアクセスが許可されていること。

  2. Amazon Bedrock サービスロールがあること。サービスロールがまだ作成されていない場合は、モデル評価ジョブの設定中に Amazon Bedrock コンソールで を作成できます。カスタムポリシーを作成する場合、アタッチされたポリシーは、モデル評価ジョブで使用される S3 バケットと、ジョブで指定されたARNモデルの リソースへのアクセスを許可する必要があります。サービスロールには、ロールの信頼ポリシーでサービスプリンシパルとして Amazon Bedrock が定義されている必要もあります。詳細については、「必要なアクセス許可」を参照してください。

  3. Amazon Bedrock コンソールにアクセスするユーザー、グループ、またはロールには、必要な Amazon S3 バケットにアクセスするために必要な権限が必要です。詳細については、「必要なアクセス許可」を参照してください。

  4. 出力 Amazon S3 バケット、およびカスタムプロンプトデータセットバケットには、必要なCORSアクセス許可を追加する必要があります。必要なCORSアクセス許可の詳細については、「」を参照してくださいS3 バケットで必要なクロスオリジンリソース共有 (CORS) アクセス許可

チュートリアル: 自動モデル評価ジョブを作成する

次の手順はチュートリアルです。このチュートリアルでは、Amazon Titan Text G1 - Lite モデルを使用する自動モデル評価ジョブの作成と、 IAMサービスロールの作成について説明します。

Amazon Bedrock コンソールを使用したモデル評価ジョブの結果の表示

モデル評価ジョブが終了すると、結果は指定した Amazon S3bucket に保存されます。結果の場所を何らかの方法で変更すると、モデル評価レポートカードはコンソールに表示されなくなります。

(チュートリアル) Amazon Titan Text G1 - Lite を使用して自動モデル評価を作成するには
  1. Amazon Bedrock コンソールを開きます: https://console.aws.amazon.com/bedrock/

  2. ナビゲーションペインで、[モデル評価] を選択します。

  3. [評価を構築] カードの [自動] で、[自動評価を作成] を選択します。

  4. 自動評価の作成ページで、次の情報を入力します。

    1. 評価名 — モデル評価ジョブを説明する名前を付けます。この名前はモデル評価ジョブテーブルに表示されます。名前は、 AWS アカウント の で一意である必要があります AWS リージョン。

    2. 説明 (オプション) — オプションで説明を入力します。

    3. モデルセレクタ — モデル Amazon Titan Text G1 – Lite を選択します。

      利用可能なモデルと Amazon Bedrock でそれらにアクセスする方法の詳細については、「」を参照してくださいAmazon Bedrock 基盤モデルへのアクセスを管理する

    4. (オプション) 推論設定を変更するには、[更新] を選択します。

      推論設定を変更すると、選択したモデルによって生成されたレスポンスが変更されます。使用可能な推論パラメータの詳細については、「基盤モデルの推論パラメータ」を参照してください。

    5. タスクタイプ 一般的なテキスト生成 を選択します

    6. メトリクスとデータセットカード — 使用可能なメトリクスと組み込みプロンプトデータセットのリストを表示できます。データセットは、選択したタスクに基づいて変わります。このチュートリアルでは、デフォルトのオプションを選択したままにします。

    7. 評価結果 — モデル評価ジョブの結果を保存するURIディレクトリの S3 を指定します。S3 を参照 を選択して、Amazon S3 内の場所を検索します。

    8. Amazon Bedrock IAMロール — ラジオボタン「新しいロールの作成」を選択します。

    9. (オプション) サービスロール名 で、ユーザーに代わって作成されるロールのサフィックスを変更します。この方法で作成されたロールは、常に Amazon-Bedrock-IAM-Role- で始まります。

    10. 出力バケットは、自動モデル評価ジョブに常に必要であり、IAMサービスロールで固有である必要があります。評価結果でバケットをすでに指定している場合、このフィールドは事前に入力されています。

    11. 次に、ロールの作成 を選択します。

  5. モデル評価ジョブを開始するには、[作成] を選択します。

ジョブが正常に開始されると、ステータスが [進行中] に変わります。ジョブが終了すると、ステータスが [完了] に変わります。

現在進行中のモデル評価ジョブを停止するには、評価を停止 を選択します。モデル評価ジョブのステータスは、進行中の から停止中の に変わります。ジョブのステータスが停止 に変更されると、

モデル評価ジョブの結果を評価、表示、ダウンロードする方法については、「モデル評価ジョブの結果」を参照してください。