DPO
DPO for Tool-use Preference
用 chosen/rejected 偏好数据优化企业 Agent 的工具调用决策。
Hypothesis
如果把工具调用失败样本整理成 chosen/rejected 偏好对,小模型可以学习更稳定的工具选择倾向,并减少明显不合理的参数生成。
Dataset
数据来自脱敏 badcase、人工构造边界样本和少量合成偏好对。每条样本保留任务目标、可用工具、业务约束、chosen 行为和 rejected 行为。
Evaluation
评测不只看 win-rate,还要看工具选择准确率、参数有效率、拒答合理性和是否触发人工接管。
Result
小规模实验显示工具选择更稳定,但对复杂多步任务的收益有限。后续需要把任务分解和工具选择分开建模。