

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 评测 Amazon Bedrock 资源的性能
<a name="evaluation"></a>

使用 Amazon Bedrock 评测来评测 Amazon Bedrock 模型和知识库的性能和有效性，以及 Amazon Bedrock 外部的模型和检索增强生成（RAG）来源的性能和有效性。Amazon Bedrock 可以计算性能指标，例如模型的语义稳健性，以及知识库在检索信息和生成响应方面的正确性。对于模型评测，您还可以利用人工团队对评测进行评级，并提供其意见。

自动评估，包括利用大型语言模型 (LLMs) 的评估，可生成计算分数和指标，帮助您评估模型和知识库的有效性。人工评测使用人工团队来根据某些指标提供评分和偏好。

**概述：编程模型评估作业**  
编程模型评估作业允许您快速评估模型执行任务的能力。您可以提供为特定用例量身定制的自定义提示数据集，也可以使用可用的内置数据集。

**概述：使用人工的模型评估作业**  
使用人工的模型评估作业允许您将人工输入引入模型评估过程。人工可能来自公司员工，也可能来自行业内的一群主题专家。

**概述：使用评判工具模型的模型评测作业**  
使用评判工具模型的模型评测作业可让您通过使用另一个 LLM 来快速评测模型的响应。第二个 LLM 会对响应进行评分并为每个响应提供解释。

**使用大型语言模型的 RAG 评估概述 () LLMs**  
基于 LLM 的评测会计算知识库的性能指标。这些指标可以显示 RAG 来源或 Amazon Bedrock 知识库是否能够检索高度相关的信息并生成有用、适当的响应。您需要提供包含提示或用户查询的数据集，用于评测知识库如何检索信息并针对这些给定查询生成响应。该数据集还必须包含“Ground Truth”（即针对查询的预期检索文本和响应），让评测可以检查您的知识库是否与预期一致。

使用以下主题详细了解如何创建您的第一个模型评测作业。

模型评测作业支持使用以下类型的 Amazon Bedrock 基础模型：
+ 基础模型
+ Amazon Bedrock Marketplace 模型
+ 自定义基础模型
+ 导入的基础模型
+ 提示路由器
+ 您已为其购买预调配吞吐量的模型

**Topics**
+ [支持模型评测的区域和模型](evaluation-support.md)
+ [在 Amazon Bedrock 中创建自动模型评测作业](evaluation-automatic.md)
+ [在 Amazon Bedrock 中创建使用人工的模型评测作业](evaluation-human.md)
+ [使用另一个 LLM as a judge 来评测模型性能](evaluation-judge.md)
+ [使用 Amazon Bedrock 评估来评测 RAG 来源的性能](evaluation-kb.md)
+ [必需的 S3 存储桶的跨源资源共享（CORS）权限](model-evaluation-security-cors.md)
+ [在 Amazon Bedrock 中查看模型评测作业报告和指标](model-evaluation-report.md)
+ [Amazon Bedrock 评估作业中的数据管理和加密](evaluation-data-management.md)
+ [CloudTrail 模型评估作业中的管理事件](cloudtrail-events-in-model-evaluations.md)