DPO DPO for Tool-use Preference 用 chosen/rejected 偏好数据优化企业 Agent 的工具调用决策。 DPOTool-usePreference Data 查看详情
Replay Eval Agent 回放评测框架 用生产 trace 构建可复现的 Agent 回归评测,支撑 prompt、工具和模型变更。 EvaluationReplayRegression 查看详情