2025 企业级 Agent 平台 建设可评测、可审计、可扩展的企业级 Agent Runtime 与工具调用体系。 Agent RuntimeTool-useLLMOpsEvaluation 查看详情
DPO DPO for Tool-use Preference 用 chosen/rejected 偏好数据优化企业 Agent 的工具调用决策。 DPOTool-usePreference Data 查看详情
Replay Eval Agent 回放评测框架 用生产 trace 构建可复现的 Agent 回归评测,支撑 prompt、工具和模型变更。 EvaluationReplayRegression 查看详情