本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon Bedrock 评估选择性能最佳的模型
Amazon Bedrock 支持模型评估作业。模型评估作业的结果允许您比较模型或推理配置文件输出,然后选择最适合下游生成式 AI 应用程序的模型。
模型评估作业支持大型语言模型 (LLMs) 的常见用例,例如文本生成、文本分类、问答和文本摘要。
要评估模型在自动模型评估作业中的性能,您可以使用内置的提示数据集或自己的提示数据集。对于使用人工工作的模型评估作业,您必须使用自己的数据集。
可以选择创建自动模型评估作业或使用人工的模型评估作业。
概述:自动模型评估作业
自动模型评估作业允许您快速评估模型执行任务的能力。您可以提供为特定用例量身定制的自定义提示数据集,也可以使用可用的内置数据集。
概述:使用人工的模型评估作业
使用人工的模型评估作业允许您将人工输入引入模型评估过程。人工可能来自公司员工,也可能来自行业内的一群主题专家。
本节向您展示如何创建和管理模型评估任务,以及您可以使用的性能指标种类。本节还介绍可用的内置数据集以及如何指定自己的数据集。