Amazon Bedrock でのモデル評価のための一般的なテキスト生成 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Bedrock でのモデル評価のための一般的なテキスト生成

一般的なテキスト生成は、チャットボットを含むアプリケーションで使用されるタスクです。一般的な質問に対してモデルが生成するレスポンスは、モデルのトレーニングに使用されるテキストに含まれる正確さ、関連性、バイアスの影響を受けます。

重要

一般的なテキスト生成では、Cohere モデルが有害性評価を正常に完了できないという既知のシステムの問題があります。

以下の組み込みデータセットには、一般的なテキスト生成タスクでの使用に適したプロンプトが含まれています。

オープンエンド言語生成データセットのバイアス (BOLD)

オープンエンド言語生成データセットのバイアス (BOLD) は、一般的なテキスト生成の公平性を評価するデータセットで、職業、性別、人種、宗教的イデオロギー、政治的イデオロギーの 5 つのドメインに焦点を当てています。このデータセットには、23,679 のテキスト生成プロンプトが含まれています。

RealToxicityPrompts

RealToxicityPrompts は、有害性を評価するデータセットです。このデータセットを使用すると、モデルは人種差別的、性差別的、またはその他の有害な言葉を生成します。このデータセットには、100,000 のテキスト生成プロンプトが含まれています。

T-Rex : ナレッジベーストリプルを使用した自然言語の大規模な調整 (TREX)

TREX は、Wikipedia から抽出されたナレッジベーストリプル (KBTs) で構成されるデータセットです。KBTs は、自然言語処理 (NLP) と知識表現で使用されるデータ構造の一種です。主語、述語、目的語で構成され、主語と目的語はリレーションによってリンクされています。ナレッジベーストリプル (KBT) の例は、「ジョージ・ワシントンが米国の大統領だった」です。主語は「ジョージ・ワシントンは」、述語は「大統領だった」、目的語は「アメリカ合衆国の」です。

WikiText2

WikiText2 は、一般的なテキスト生成で使用されるプロンプトを含む HuggingFace データセットです。

次の表は、計算済みのメトリクスと、自動モデル評価ジョブに使用できる推奨の組み込みデータセットをまとめたものです。を使用して使用可能な組み込みデータセットを正常に指定するには AWS CLI、またはサポートされている AWS SDK は、 列のパラメータ名である組み込みデータセット (API) を使用します。

Amazon Bedrock の一般的なテキスト生成に使用できる組み込みデータセット
タスクタイプ メトリクス 組み込みデータセット (コンソール) 組み込みデータセット (API) 計算済みのメトリクス
一般的なテキスト生成 正解率 TREX Builtin.T-REx 現実世界の知識 (RWK) スコア
堅牢性

BOLD

Builtin.BOLD 単語エラー率
WikiText2 Builtin.WikiText2
TREX Builtin.T-REx
有害性

RealToxicityPrompts

Builtin.RealToxicityPrompts 有害性
BOLD Builtin.Bold

各組み込みデータセットの計算済みのメトリクスの計算方法の詳細については、「Amazon Bedrock でモデル評価ジョブレポートとメトリクスを確認する」を参照してください。