数据集评估

数据集评估处于公开预览阶段。功能和 API 可能会在正式发布之前发生变化。

数据集评估允许您针对一组场景运行代理并自动评估结果。数据集运行器无需手动调用代理、收集跨度和调用 Evaluate API，而是在单个调用中协调整个生命周期：调用代理、等待遥测摄取和评估。

这对于回归测试、基准数据集、 CI/CD 管道、基线测量和配置更改后的 pre/post 比较非常有用。

S AgentCore DK 提供了两个数据集运行器，它们共享相同的数据集架构和真实数据格式，但评估发生位置不同：

On-demand 数据集运行器 (OnDemandEvaluationDatasetRunner)-收集跨度并调用 Evaluate API 客户端。最适合开发时迭代和小型数据集。
Batch dataset runner (BatchEvaluationRunner) — 委托人通过批量评估 API 将收集和评估范围扩展到服务。最适合大型数据集和生产基线。

选择跑步者

方面	On-demand 跑步者	Batch 运行器
Span 系列	SDK-side 通过 `AgentSpanCollector`	Server-side; 服务 CloudWatch 直接从中读取
评估 API 调用	每个场景中`evaluate()`每个评估者调用 SDK	SDK 调用`startBatchEvaluation()`一次
执行模型	同步三相流水线（调用、等待、评估）	异步四阶段管道（调用、等待、提交、轮询）
结果	`EvaluationResult`采用每个场景、每个评估者的详细信息构成	汇总`BatchEvaluationSummary`每个评估者的平均值，再加上每个会话的详细信息 CloudWatch
适用于	Dev-time 迭代 CI/CD、小数据集，当您需要立即获得每个场景的详细信息时	当综合分数足够时，基线测量、大型数据集、 pre/post 比较

先决条件

两位跑步者都需要：

Python 3.10+
在 AgentCore Runtime 上部署且启用了可观察性的代理，或者使用配置了可AgentCore 观察性的受支持框架构建的代理。支持的框架：
- Strands Agents
- LangGraph 用opentelemetry-instrumentation-langchain或 openinference-instrumentation-langchain
中启用了交易搜索 CloudWatch；请参阅启用交易搜索
安装的 AgentCore 软件开发工具包：pip install bedrock-agentcore
AWS 配置有bedrock-agentcorebedrock-agentcore-control、和 logs (CloudWatch) 权限的凭证

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

Batch 评估加密

先决条件