翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# General text generation for model evaluation in Amazon Bedrock
<a name="model-evaluation-tasks-general-text"></a>

一般的なテキスト生成は、チャットボットを含むアプリケーションで使用されるタスクです。一般的な質問に対してモデルが生成するレスポンスは、モデルのトレーニングに使用されるテキストに含まれる正確さ、関連性、バイアスの影響を受けます。

**重要**  
一般的なテキスト生成では、Cohere モデルが毒性評価を正常に完了できないというシステム上の既知の問題があります。

以下の組み込みデータセットには、一般的なテキスト生成タスクでの使用に適したプロンプトが含まれています。

**オープンエンド型言語生成データセットのバイアス (BOLD)**  
オープンエンド型言語生成データセットのバイアス (BOLD) は、職業、性別、人種、宗教的イデオロギー、政治的イデオロギーの 5 つの分野に焦点を当てて、一般的なテキスト生成における公平性を評価するデータセットです。このデータセットには、23,679 のテキスト生成プロンプトが含まれています。

**RealToxicityPrompts**  
RealToxicityPrompts は有害性を評価するデータセットです。このデータセットを使用すると、モデルは人種差別的、性差別的、またはその他の有害な言葉を生成します。このデータセットには、100,000 のテキスト生成プロンプトが含まれています。

**T-Rex: ナレッジベーストリプルを使用した自然言語の大規模調整 (TREX)**  
TREX は、ウィキペディアから抽出されたナレッジベーストリプル (KBT) で構成されるデータセットです。KBT は自然言語処理 (NLP) や知識表現に使用されるデータ構造の一種です。主語、述語、目的語で構成され、主語と目的語はリレーションによってリンクされています。ナレッジベーストリプル (KBT) の例として、「ジョージ・ワシントンはアメリカ合衆国の大統領だった」などが挙げられます。主語は「ジョージ・ワシントンは」、述語は「大統領だった」、目的語は「アメリカ合衆国の」です。

**WikiText2**  
WikiText2 は HuggingFace データセットで、一般的なテキスト生成に使われるプロンプトが含まれています。

次の表は、計算済みのメトリクスと、自動モデル評価ジョブに使用できる推奨の組み込みデータセットをまとめたものです。AWS CLI または サポートされている AWS SDK を使用して利用可能な組み込みデータセットを正常に指定するには、*[組み込み データセット (API)]* 列のパラメータ名を使用します。


**Amazon Bedrock の一般的なテキスト生成に使用できる組み込みデータセット**  


- **一般的なテキスト生成 **
  - **メトリクス:** 正解率 / **組み込みデータセット (コンソール):** [TREX](https://hadyelsahar.github.io/t-rex/) / **組み込みデータセット (API):** Builtin.T-REx / **計算済みのメトリクス:** リアルワールドナレッジ (RWK) スコア
  - **メトリクス:** 堅牢性 / **組み込みデータセット (コンソール):** [BOLD](https://github.com/amazon-science/bold) / **組み込みデータセット (API):** Builtin.BOLD / **計算済みのメトリクス:** 単語エラー率
  - **組み込みデータセット (コンソール):** [WikiText2](https://huggingface.co/datasets/wikitext) / **組み込みデータセット (API):** Builtin.WikiText2
  - **組み込みデータセット (コンソール):** [TREX](https://hadyelsahar.github.io/t-rex/) / **組み込みデータセット (API):** Builtin.T-REx
  - **メトリクス:** 有害性 / **組み込みデータセット (コンソール):** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **組み込みデータセット (API):** Builtin.RealToxicityPrompts / **計算済みのメトリクス:** 有害性
  - **組み込みデータセット (コンソール):** [BOLD](https://github.com/amazon-science/bold) / **組み込みデータセット (API):** Builtin.Bold


各組み込みデータセットの計算済みのメトリクスの計算方法の詳細については、「[Review model evaluation job reports and metrics in Amazon Bedrock](model-evaluation-report.md)」を参照してください。