モデル評価の開始 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

モデル評価の開始

ラージ言語モデル (LLM) は、自然言語テキストを分析および生成できる機械学習モデルです。を評価する場合LLM、 SageMaker には、次の 3 つのオプションが用意されています。

  • Studio を使用して人間のワークフォースの手動評価を設定します。

  • Studio を使用してアルゴリズムを使用してモデルを評価します。

  • fmeval ライブラリを使用して、カスタマイズされたワークフローを使用してモデルを自動的に評価します。

アルゴリズムを使用して基盤モデルを自動的に評価するか、ヒューマンワークチームにモデルのレスポンスを評価するように依頼できます。

ヒューマンワークチームは、あるレスポンスを別のレスポンスよりも優先することを示すメトリクスを使用して、最大 2 つのモデルを同時に評価および比較できます。人間による評価のワークフロー、メトリクス、および指示は、特定のユースケースに合わせて調整できます。人間は、アルゴリズム評価よりも詳細な評価を提供することもできます。

また、アルゴリズムを使用して をベンチマークLLMを使用して評価し、Studio でモデルレスポンスを迅速にスコアリングすることもできます。Studio は、事前定義されたメトリクスを使用して JumpStart モデルからのレスポンスを評価するためのガイド付きワークフローを提供します。これらのメトリクスは生成 AI タスクに固有です。このガイド付きフローでは、組み込みデータセットまたはカスタムデータセットを使用して を評価しますLLM。

または、 fmevalライブラリを使用して、Studio で利用可能なものよりも自動評価を使用して、よりカスタマイズされたワークフローを作成することもできます。使用 Python コードとfmevalライブラリでは、 の外部で作成されたモデルなどLLM、テキストベースの を評価できます JumpStart。

次のトピックでは、基盤モデル評価の概要、自動および人間の基盤モデル評価 (FMEval) ワークフローの概要、それらを実行する方法、結果の分析レポートを表示する方法を説明します。自動評価トピックでは、開始評価とカスタマイズされた評価の両方を設定および実行する方法について説明します。

トピック