返回列表

2026-06-26

企业 Agent 评测手册

把 Agent 评测从主观试用变成可回放、可分层、可发布门禁的工程系统。

Why

企业 Agent 的上线风险来自多层不确定性:模型输出、工具副作用、业务权限和人工接管。只看最终回答无法覆盖这些风险。

Playbook

一套实用评测至少包含三层:离线回放集、线上灰度指标和人工复盘样本。离线回放负责阻止明显回归,线上指标负责观察真实分布,人工复盘负责发现新类别问题。

Operating Rhythm

每周把新增 badcase 归类,选择高价值样本进入 golden set。每次发布前跑固定评测,每次事故后把缺失断言补回评测框架。