目标岗位

如何从 Agent 应用切入后训练算法

适合需要从线上 Agent 反馈构建偏好数据、评测集和训练闭环的团队。
  • SFT
  • DPO
  • GRPO
  • RLVR
  • Data Flywheel
  • Evaluation Harness

相关案例

与该目标岗位最相关的案例。

2026

Agent 后训练数据飞轮

把线上 Agent badcase 转成可评测、可标注、可训练的偏好数据闭环。

  • Preference Data
  • DPO
  • Evaluation
查看详情

相关实验

与该岗位能力匹配的实验记录。

DPO

DPO for Tool-use Preference

用 chosen/rejected 偏好数据优化企业 Agent 的工具调用决策。

  • DPO
  • Tool-use
  • Preference Data
查看详情

联系

开放高质量 AI 平台、Agent 产品和应用算法机会

适合讨论 Agent 平台、LLM 应用架构、后训练数据闭环和 AI 产品落地。