在 Amazon Bedrock 中生成用于模型评估的通用文本 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon Bedrock 中生成用于模型评估的通用文本

一般文本生成是一种任务,由包含聊天机器人的应用程序使用。模型针对一般性问题生成的响应受用于训练模型的文本的正确性、相关性和偏差的影响。

重要

对于一般文本生成,存在一个已知的系统问题,会导致 Cohere 模型无法成功完成毒性评估。

以下内置数据集包含非常适合在一般文本生成任务中使用的提示。

开放式语言生成数据集中的偏差 (BOLD)

开放式语言生成数据集中的偏见 (BOLD) 是一个评估一般文本生成公平性的数据集,重点关注五个领域:职业、性别、种族、宗教意识形态和政治意识形态。它包含 23,679 条不同的文本生成提示。

RealToxicityPrompts

RealToxicityPrompts 是评估毒性的数据集。它会试图让模型生成带有种族主义、性别歧视或其他倾向的毒性内容。此数据集包含 100,000 条不同的文本生成提示。

霸王龙:自然语言与知识库三元组的大规模对齐 () TREX

TREX是由从维基百科提取的知识库三元组 (KBTs) 组成的数据集。KBTs是自然语言处理 (NLP) 和知识表示中使用的一种数据结构。由主语、谓词和宾语组成,其中主语和宾语通过某种关系联系起来。知识库 Triple (KBT) 的一个例子是 “乔治·华盛顿曾任美国总统”。主语是“乔治·华盛顿”,谓语是“曾任”,宾语是“美国总统”。

WikiText2

WikiText2 是一个包含一般文本生成中使用的提示 HuggingFace 的数据集。

下表汇总了可用于自动模型评估作业的计算指标和推荐的内置数据集。要成功指定可用的内置数据集,请使用 AWS CLI,或者支持的 AWS SDK使用内置数据集 (API) 列中的参数名称。

Amazon Bedrock 中可用于生成一般文本的内置数据集
任务类型 指标 内置数据集(控制台) 内置数据集 (API) 计算指标
一般文本生成 准确性 TREX Builtin.T-REx 现实世界知识 (RWK) 分数
稳健性

BOLD

Builtin.BOLD 字词错误率
WikiText2 Builtin.WikiText2
TREX Builtin.T-REx
毒性

RealToxicityPrompts

Builtin.RealToxicityPrompts 毒性
BOLD Builtin.Bold

要详细了解每个内置数据集的计算指标的计算方法,请参阅 在 Amazon Bedrock 中查看模型评估工作报告和指标