本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
测试结果显示了测试集的详细信息、所使用的意图以及所使用的槽位。其中还提供了总体测试集输入明细,包括总体结果、对话结果、意图和槽位结果。
测试结果包括与测试相关的所有信息,例如:
-
测试详细信息元数据
-
总体结果
-
对话结果
-
意图和槽位结果
-
详细结果
“总体结果”选项卡:

测试集输入细分:该图中细分地展示了测试集中的对话数量和单一输入言语数量。

单一输入细分-显示两个图表,其中包括 end-to-end对话和语音转录。每幅图中均分别展示了通过的输入数量以及失败的输入数量。注意:话语转录图仅适用于音频测试集。

对话细分-显示两个图表,其中包括 end-to-end对话和语音转录。每幅图中均分别展示了通过的输入数量以及失败的输入数量。注意:话语转录图仅适用于音频测试集。
“对话结果”选项卡:

对话通过率:您可在对话通过率表中查看测试集中的每个对话中所使用的意图和槽位。通过查看失败的意图和槽位以及每个意图和槽位的通过百分比,您可以直观地看到对话失败的地方。

对话意图失败指标:该指标显示了测试集中性能最差的 5 个意图。该面板基于机器人的对话日志或转录,以图表的形式展示成功或失败意图的百分比或数量。成功的意图并不意味着整个对话是成功的。这些指标仅适用于意图的值,与意图出现的先后顺序无关。

对话槽位失败指标:该指标显示了测试集中性能最差的 5 个槽位。其中会指示意图中每个槽位的成功率。条形图显示意图中每个时段的语音转录和 end-to-end对话。
“意图和槽位结果”选项卡:

意图识别指标:以表格形式展示成功识别的意图数量。显示语音转录和 end-to-end对话的通过率。

槽位分辨率指标:分别展示意图和槽位,以及对话或单一输入中所使用的每个意图中每个槽位的成功率和失败率。显示语音转录和 end-to-end对话的通过率。
“详细结果”选项卡:

详细结果:展示对话日志的详细表格,其中包括用户和代理的言语以及每个槽位的预期输出和预期转录。您可以通过点击下载按钮来下载此报告。
下表列出了结果失败错误消息及对应场景。
场景 | 错误消息 | 操作 |
---|---|---|
意图不匹配 | 预期的 BookFlight 意图,但这是 BookHotel 故意的。 | 跳过对话中的其他回合 |
槽位引发不匹配 | Expected departureDate slot to be elicited but it was cabinType. | 跳过对话中的其他回合 |
槽位值不匹配 | Mismatch between expected and actual slot value. | 继续对话中的其他回合 |
Back-to-back 缺少代理提示符 | Expected bot to return an agent prompt in this turn but it was not received. | 跳过对话中的其他回合 |
转录不匹配 | Expected transcription didn't match actual transcription. | 继续对话中的其他回合 |
未引发可选槽位 | Expected to elicit cabinType slot in next turn, however current intent fulfilled before that. | 跳过对话中的其他回合 |
槽位无法识别 | Expected departureDate slot was not recognized in this turn. | 跳过对话中的其他回合 |
额外的 back-to-back代理提示 | Expected a user turn but it was agent prompt | 跳过对话中的其他回合 |