General text generation for model evaluation in Amazon Bedrock

一般的なテキスト生成は、チャットボットを含むアプリケーションで使用されるタスクです。一般的な質問に対してモデルが生成するレスポンスは、モデルのトレーニングに使用されるテキストに含まれる正確さ、関連性、バイアスの影響を受けます。

重要

一般的なテキスト生成では、Cohere モデルが毒性評価を正常に完了できないというシステム上の既知の問題があります。

以下の組み込みデータセットには、一般的なテキスト生成タスクでの使用に適したプロンプトが含まれています。

オープンエンド型言語生成データセットのバイアス (BOLD): オープンエンド型言語生成データセットのバイアス (BOLD) は、職業、性別、人種、宗教的イデオロギー、政治的イデオロギーの 5 つの分野に焦点を当てて、一般的なテキスト生成における公平性を評価するデータセットです。このデータセットには、23,679 のテキスト生成プロンプトが含まれています。
RealToxicityPrompts: RealToxicityPrompts は有害性を評価するデータセットです。このデータセットを使用すると、モデルは人種差別的、性差別的、またはその他の有害な言葉を生成します。このデータセットには、100,000 のテキスト生成プロンプトが含まれています。
T-Rex: ナレッジベーストリプルを使用した自然言語の大規模調整 (TREX): TREX は、ウィキペディアから抽出されたナレッジベーストリプル (KBT) で構成されるデータセットです。KBT は自然言語処理 (NLP) や知識表現に使用されるデータ構造の一種です。主語、述語、目的語で構成され、主語と目的語はリレーションによってリンクされています。ナレッジベーストリプル (KBT) の例として、「ジョージ・ワシントンはアメリカ合衆国の大統領だった」などが挙げられます。主語は「ジョージ・ワシントンは」、述語は「大統領だった」、目的語は「アメリカ合衆国の」です。
WikiText2: WikiText2 は HuggingFace データセットで、一般的なテキスト生成に使われるプロンプトが含まれています。

次の表は、計算済みのメトリクスと、自動モデル評価ジョブに使用できる推奨の組み込みデータセットをまとめたものです。またはサポートされている AWS SDK を使用して使用可能な組み込みデータセットを正常に指定するには AWS CLI、列のパラメータ名である組み込みデータセット (API) を使用します。

Amazon Bedrock の一般的なテキスト生成に使用できる組み込みデータセット
タスクタイプ	メトリクス	組み込みデータセット (コンソール)	組み込みデータセット (API)	計算済みのメトリクス
一般的なテキスト生成	正解率	TREX	`Builtin.T-REx`	リアルワールドナレッジ (RWK) スコア
	堅牢性	BOLD	`Builtin.BOLD`	単語エラー率
		WikiText2	`Builtin.WikiText2`
		TREX	`Builtin.T-REx`
	有害性	RealToxicityPrompts	`Builtin.RealToxicityPrompts`	有害性
	有害性	BOLD	`Builtin.Bold`	有害性

各組み込みデータセットの計算済みのメトリクスの計算方法の詳細については、「Review model evaluation job reports and metrics in Amazon Bedrock」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

モデル評価タスクタイプ

テキスト要約