企业级 Agent 平台 | DossierKit 示例专家

Context

团队需要把多个内部流程接入 LLM Agent，但早期原型缺少统一运行时、权限边界和质量评估。每个业务线都在重复构建 prompt、工具调用和人工兜底逻辑。

主要风险不是模型能力本身，而是生产环境里的不可控行为：工具误调用、状态不可追踪、失败难以复盘、上线前没有回归门槛。

我负责定义平台边界、核心模块拆分和上线质量门槛，并协调产品、算法、业务系统和安全团队完成第一批生产流程接入。

平台拆成五层：任务编排、工具注册、权限审计、运行时观测和评测回放。业务方只声明流程和工具能力，平台负责权限、日志、重试、人工接管和质量回归。

评测集由历史任务、人工构造边界样本和线上 badcase 组成。每次 prompt、工具 schema 或模型变更都需要跑成功率、误调用率和人工接管率。

首批流程完成后，团队获得了可复用 runtime 和评测基线。后续业务线接入时不再重复建设工具调用、审计和回放能力。

最早把评测放在平台后期才补，导致若干设计缺少可量化反馈。后续把评测集建设前置到需求阶段，明显降低了上线争议。