SageMaker Clarify で大規模言語モデルを評価するためのオプションを理解する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker Clarify で大規模言語モデルを評価するためのオプションを理解する

重要

SageMaker Clarify Foundation Model Evaluations を使用するには、新しい Studio エクスペリエンスにアップグレードする必要があります。2023 年 11 月 30 日現在、以前の Amazon SageMaker Studio エクスペリエンスは Amazon SageMaker Studio Classic と名付けられています。基盤評価機能は、更新されたエクスペリエンスでのみ使用できます。Studio を更新する方法については、「」を参照してくださいAmazon SageMaker Studio Classic からの移行。Studio Classic アプリケーションの使用については、「」を参照してくださいAmazon SageMaker Studio Classic

Amazon SageMaker Clarify を使用すると、モデル評価ジョブを作成して、大規模な言語モデル (LLMs) を評価できます。モデル評価ジョブを使用すると、 のテキストベースの基盤モデルのモデル品質と責任のメトリクスを評価および比較できます JumpStart。モデル評価ジョブは、エンドポイントに既にデプロイされている JumpStart モデルの使用もサポートしています。

モデル評価ジョブは、3 つの異なるアプローチを使用して作成できます。

  • Studio で自動モデル評価ジョブを作成する – 自動モデル評価ジョブを使用すると、タスクを実行するモデルの能力をすばやく評価できます。特定のユースケースに合わせてカスタマイズされた独自のカスタムプロンプトデータセットを使用することも、使用可能な組み込みデータセットを使用することもできます。

  • Studio でヒューマンワーカーを使用するモデル評価ジョブを作成する – ヒューマンワーカーを使用するモデル評価ジョブを使用すると、モデル評価プロセスに人間による入力を取得できます。このチームには、社内の従業員や業界の専門家を含めることができます。

  • fmeval ライブラリを使用して自動モデル評価ジョブを作成する – を使用してジョブを作成するfmevalと、モデル評価ジョブを最も細かく制御できます。また、他の サービスのLLMs外部モデル AWS または非JumpStart ベースモデルの使用もサポートしています。

モデル評価ジョブは、テキスト生成、テキスト分類、質問と回答、テキスト要約LLMsなどの一般的なユースケースをサポートしています。

  • オープンエンド生成 – 事前定義された構造を持たないテキストに対する自然な人間の応答の生成。

  • テキストの要約 – 大きなテキストに含まれる意味と重要な情報を保持しながら、簡潔で要約された概要を生成する。

  • 質問への回答 – プロンプトに対する関連性のある正確な回答の生成。

  • 分類 – 内容に基づいて、ラベルやスコアなどのカテゴリをテキストに割り当てる。

以下のトピックでは、使用可能なモデル評価タスクと、使用可能なメトリクスの種類について説明します。また、使用可能な組み込みデータセットや、独自のデータセットを指定する方法についても説明します。