本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在模型评估作业中使用提示数据集和可用的评估维度
以下各节概述了如何使用自动和基于人工的模型评估作业。
模型评估任务
在模型评估作业中,评估任务是您希望模型根据提示中的信息执行的任务。
您可以为每个模型评估作业选择一种任务类型。使用以下部分了解有关每种任务类型的更多信息。每个部分还包括可用的内置数据集及其相应指标的列表,这些指标只能在自动模型评估作业中使用。
开放式一代
开放式文本生成是一项基础模型任务,它对没有预定义结构的提示(例如对聊天机器人的通用查询)生成自然语言响应。对于开放式文本生成,基础模型评估 (FMEval) 可以沿以下维度评估您的模型。
-
事实知识-评估模型对事实知识的编码程度。FMEval可以根据您自己的自定义数据集来测量您的模型,也可以使用基于以下内容的内置数据集 TREX
开源数据集。 -
语义稳健性-评估模型输出因输入中保持语义的微小变化而发生的变化程度。FMEval测量模型输出如何因键盘错别字、随机更改为大写字母以及随机添加或删除空格而发生的变化。
-
提示刻板印象 — 测量模型在响应中出现编码偏差的概率。这些偏见包括种族、性别、性取向、宗教、年龄、国籍、残疾、外表和社会经济地位方面的偏见。FMEval可以根据您自己的自定义数据集来测量您的模型响应,也可以使用基于以下内容的内置数据集 CrowS-Pairs
开源挑战数据集。 -
毒性-使用毒性检测模型评估文本。FMEval检查你的模特是否有性暗示、粗鲁、不合理、仇恨或攻击性的言论、亵渎、侮辱、调情、对身份的攻击和威胁。FMEval可以根据您自己的自定义数据集来测量您的模型,也可以使用基于以下内容的内置数据集 RealToxicityPrompts
, RealToxicityPromptsChallenging,以及 BOLD 数据集。 RealToxicityPromptsChallenging 是其中的一个子集 RealToxicityPrompts 用于测试大型语言模型的极限 (LLM)。它还确定了容易产生有毒文字的区域。LLMs
您可以使用以下毒性探测器评估您的模型:
-
UnitaryAI Detoxify-unbiased
— 经过训练的多标签文本分类器 Toxic Comment Classification Challenge 和 Jigsaw Unintended Bias in Toxicity Classification 。 该模型提供了以下类别的 7
分数:毒性、严重毒性、淫秽、威胁、侮辱、露骨性行为和身份攻击。 -
Toxigen-roberta
— 二进制 RoBERTa基于文本分类器的微调在 ToxiGen 数据集。这些区域有:ToxiGen 数据集包含与少数群体有关的具有微妙和隐含毒性的句子。
-
文本摘要
文本摘要用于任务,例如创建新闻摘要、法律文件、学术论文、内容预览和内容策划。以下因素可能会影响响应的质量:模糊性、连贯性、偏见、用于训练基础模型的文本的流畅性,以及信息丢失、准确性、相关性或上下文不匹配。FMEval可以根据您自己的自定义数据集评估您的模型,或者使用基于以下内容的内置数据集 Government Report
Dataset
-
准确性-一个数字分数,表示摘要与被接受为黄金标准的参考摘要的相似性。较高的数字分数表示摘要质量很高。数字分数低表示总结不佳。以下指标用于评估摘要的准确性:
-
ROUGE-N
— 计算 N-gram 参考文献和模型摘要之间重叠。 -
Meteor
— 计算参考文献和模型摘要之间的单词重叠,同时还要考虑改写措辞。 -
BERTScore
— 计算和比较句子嵌入以进行摘要和参考。FMEval使用roberta-large-mnli 或 microsoft/ deberta-xlarge-mnli 模型来计算嵌入。
-
-
毒性-使用毒性探测器模型计算的生成的摘要的分数。有关更多信息,请参阅前面的 “开放式生成任务” 中的 “毒性” 部分,了解详细信息。
-
语义稳健性 — 衡量模型文本摘要的质量在多大程度上因输入中保持语义的微小变化而发生的变化。这些更改的示例包括错别字、随机更改为大写字母以及随机添加或删除空格。语义稳健性使用不受干扰的文本摘要和受到干扰的文本摘要之间准确性的绝对差异。精度算法使用 ROUGE-N
, Meteor 和 BERTScore 指标,如本节前面所述。
问题回答
问答用于生成自动帮助台响应、信息检索和电子学习等任务。FMEval可以根据您自己的自定义数据集评估您的模型,或者使用基于以下内容的内置数据集 BoolQ
-
准确性-将生成的答案与参考文献中给出的问题答案对进行比较的平均分数。通过以下方法计算得出分数的平均值:
-
精确匹配 — 为精确匹配指定二进制分数,
0
否则为。1
-
准精确匹配 — 删除标点符号和语法文章(例如、a 和)(标准化)后,将为匹配项分配二进制分数。
1
-
F1 而不是单词 — F1 分数,或归一化响应和参考之间的精度和召回率的谐波平均值。F1 分数等于两倍精度乘以召回率除以精度 (P) 和召回率 (R) 之和,或 F1 = (2*P*R)/(P + R)。
在之前的计算中,精度定义为真阳性 (TP) 的数量除以真阳性和误报数 (FP) 之和,或 P = (TP)/(TP+FP)。
召回被定义为真阳性的数量除以真阳性和假阴性之和 (FN),或 R = (TP)/(TP+FN)。
F1 高于单词的分数越高表示回复的质量越高。
-
-
语义稳健性 — 衡量模型文本摘要的质量在多大程度上因输入中保持语义的微小变化而发生的变化。这些更改的示例包括键盘错别字、数字到单词的转换不准确、随机更改为大写以及随机添加或删除空格。语义稳健性使用不受干扰的文本摘要和受到干扰的文本摘要之间准确性的绝对差异。如前所述,使用精确匹配、准精确匹配和 F1 对单词进行测量。
-
毒性-分数使用毒性探测器模型评估生成的答案。有关更多信息,请参阅前面的 “开放式生成任务” 中的 “毒性” 部分,了解详细信息。
分类
分类用于将文本归类为预定义的类别。使用文本分类的应用程序包括社交媒体上的内容推荐、垃圾邮件检测、语言识别和趋势分析。数据不平衡、模棱两可、噪音大、标签偏差是一些可能导致分类错误的问题。FMEval根据基于以下内容的内置数据集评估您的模型 Women’s ECommerce Clothing Reviews
-
准确性-将预测的类别与其标签进行比较的分数。使用以下指标来衡量准确性:
-
分类精度-预测标签
1
是否等于真实标签的二进制分数,0
否则为二进制分数。 -
精度-在整个数据集中计算的真阳性与所有阳性的比率。当减少误报很重要时,精度是合适的衡量标准。可以使用以下
multiclass_average_strategy
参数值来汇总每个数据点的分数。以下示例中列出了每个参数。 -
R@@ ec all — 在整个数据集中计算的真阳性与真阳性和假阴性之和的比率。当减少假阴性很重要时,召回率是一种恰当的衡量标准。可以使用以下
multiclass_average_strategy
参数值汇总每个数据点的分数。-
micro
(默认)-所有类别的真阳性和假阴性的总和除以真阳性和假阴性的总和。这种聚合类型可以衡量模型的总体预测精度,同时平等考虑所有类别。例如,这种聚合可以评估您的模型对患有包括罕见疾病在内的任何疾病的患者进行正确分类的能力,因为它对所有类别的权重相同。 -
macro
— 为每个类别计算的召回值之和除以类数。此聚合类型可以衡量模型对每个类别的预测精度,每个类别的权重相等。例如,此聚合可以评估您的模型预测所有疾病的能力,无论每种疾病的患病率或罕见程度如何。 -
samples
(仅限多类分类)-所有样本的真阳性总和与所有样本的真阳性和假阴性之和的比率。对于多类别分类,样本由每个类别的一组预测响应组成。这种聚合类型可以精细地衡量每个样本在多类别问题中的召回情况。例如,由于按样本进行聚合可以平等对待每个样本,因此这种聚合可以评估您的模型预测罕见疾病患者的正确诊断的能力,同时还可以最大限度地减少假阴性。 -
weighted
— 一个职业的权重乘以同一个班级的召回次数,再加上所有班级的总和。这种聚合类型可以衡量总体召回率,同时适应不同类别之间的不同重要性。例如,这种聚合可以评估您的模型预测患者正确诊断的能力,并对危及生命的疾病给予更高的权重。 -
binary
— 为由值指定的类别计算的召回次数pos_label
。此聚合类型会忽略未指定的类别,并提供单个类的总体预测精度。例如,此聚合可以评估您的模型筛查人群中是否有特定高度传染性危及生命的疾病的能力。 -
none
— 为每个班级计算的召回率。当类别之间的错误惩罚差异很大时,特定类的召回可以帮助您解决数据中的类别失衡问题。例如,此聚合可以评估您的模型识别所有可能患有特定疾病的患者的能力。
-
-
平衡分类精度 (BCA)-二元分类的召回率和真实负率之和除
2
以后的真实负数。真实阴性率等于真阴性数除以真阴性和误报率之和。对于多类别分类,计算方法BCA为每个类别的召回值之和除以类别数。BCA当预测误报和假阴性的惩罚都很高时,可以提供帮助。例如,BCA可以评估您的模型通过侵入性治疗预测多种高度传染性的致命疾病的能力。
-
-
语义稳健性-评估模型输出因输入中保持语义的微小变化而发生的变化程度。FMEval测量由于键盘错别字、随机更改为大写字母以及随机添加或删除空格而导致的模型输出。语义稳健性对不受干扰的文本摘要和受到干扰的文本摘要在准确性上的绝对差异进行评分。
基础模型评估的类型
以下各节详细介绍了基础模型的人工评估和算法评估类型。
人体评估
要由人工评估您的模型,您必须定义指标和相关的指标类型。如果要评估多个模型,则可以使用比较或单独的评级机制。如果要评估一个模型,则必须使用单独的评级机制。以下评分机制可以应用于任何与文本相关的任务:
-
(比较)李克特量表——比较 — 人类评估人员将根据你的指示,在5分李克特量表上表明他们在两个答案之间的偏好。在最终报告中,结果将显示为按偏好强度对整个数据集进行评分的直方图。在说明中定义 5 分制的要点,以便您的评估人员知道如何根据您的期望对答案进行评分。
-
(比较)选择按钮-允许人工评估人员根据您的指示,使用单选按钮指示一个首选响应而不是另一个响应。最终报告中的结果将以百分比的形式,显示工作人员为每种模型首选的响应。在说明中清楚地说明您的评估方法。
-
(比较)序数等级 — 允许人工评估人员根据你的指示按顺序对提示的首选响应进行排名,从 1 开始。在最终报告中,结果以直方图的形式显示评估者在整个数据集中的排名。请务必在说明中定义等级的
1
含义。 -
(个人)竖起/向下 — 允许人工评估人员根据您的指示将模型的每个响应评为可接受或不可接受。在最终报告中,结果显示了每个模型获得好评的评估者评分总数的百分比。您可以使用此评级方法来评估一个或多个模型。如果您在包含两个模型的评估中使用它,则用户界面会为每个模型响应向您的工作团队提供一个竖起或向下大拇指的选项。最终报告将分别显示每个模型的汇总结果。在给工作团队的指示中定义什么是可接受的回应。
-
(个人)李克特量表——个人 — 允许人工评估人员根据你的指示,在 5 分李克特量表上表明他们对模型响应的认可程度。在最终报告中,结果显示评估者对整个数据集的 5 分评分的直方图。您可以使用此评级方法进行包含一个或多个模型的评估。如果您在包含多个模型的评估中选择此评分方法,则会向您的工作团队显示每个模型响应的 5 分李克特量表。最终报告将分别显示每个模型的汇总结果。在说明中以 5 分制定义要点,以便评估人员知道如何根据您的期望对回复进行评分。
自动评估
自动评估可以利用内置的数据集和算法,也可以自带针对您的用例的提示数据集。每个任务的内置数据集各不相同,将在以下各节中列出。有关任务及其相关指标和数据集的摘要,请参阅以下 Foundation 模型摘要评估部分中的表格。
基础模型评估摘要
下表汇总了人工评估和自动评估的所有评估任务、指标和内置数据集。
任务 | 人体评估 | 人类指标 | 自动评估 | 自动指标 | 自动内置数据集 |
---|---|---|---|---|---|
开放式一代 |
流畅度、连贯性、毒性、准确性、一致性、相关性、用户定义 |
偏好率、偏好强度、偏好等级、批准率、批准强度 |
事实知识 |
TREX |
|
语义稳健性 |
TREX |
||||
BOLD |
|||||
WikiText |
|||||
提示陈规定型观念 |
CrowS-Pairs |
||||
毒性 |
RealToxicityPrompts |
||||
BOLD |
|||||
文本摘要 |
准确性 |
ROUGE-N |
Government Report Dataset |
||
BERTScore |
Gigaword |
||||
Government Report Dataset |
|||||
Gigaword |
|||||
Government Report Dataset |
|||||
Gigaword |
|||||
问题回答 |
准确性 |
完全匹配 |
BoolQ |
||
准精确匹配 |
NaturalQuestions |
||||
F1 胜过言语 |
TriviaQA |
||||
语义稳健性 |
BoolQ |
||||
NaturalQuestions |
|||||
TriviaQA |
|||||
毒性 |
BoolQ |
||||
NaturalQuestions |
|||||
TriviaQA |
|||||
文本分类 |
准确性 |
分类精度 |
Women's Ecommerce Clothing Reviews |
||
精度 |
Women's Ecommerce Clothing Reviews |
||||
召回率 |
Women's Ecommerce Clothing Reviews |
||||
平衡的分类精度 |
Women's Ecommerce Clothing Reviews |
||||
语义稳健性 |
Women's Ecommerce Clothing Reviews |