Replay Eval
Agent 回放评测框架
用生产 trace 构建可复现的 Agent 回归评测,支撑 prompt、工具和模型变更。
Goal
把线上任务 trace 转成离线可回放评测,让团队在变更 prompt、工具 schema 或模型版本时知道风险在哪里。
Design
每个样本包含用户目标、上下文、可用工具、期望中间行为、最终输出断言和人工兜底策略。评测结果按任务类型、工具类型和失败原因聚合。
Lesson
只看最终答案会漏掉关键风险。Agent 评测必须同时检查过程、工具、副作用和恢复策略。