实验

实验记录

DPO

DPO for Tool-use Preference

用 chosen/rejected 偏好数据优化企业 Agent 的工具调用决策。

  • DPO
  • Tool-use
  • Preference Data
查看详情
Replay Eval

Agent 回放评测框架

用生产 trace 构建可复现的 Agent 回归评测,支撑 prompt、工具和模型变更。

  • Evaluation
  • Replay
  • Regression
查看详情