DossierKit / AI Expert

AI / Agent / LLM Expert

Building intelligent systems and delightful experiences with AI.

Projects Explore things I've built and shipped. Experience A look at my journey and impact. Open Roles I'm open to meaningful opportunities.

Contact demo@example.com Send a Message

目标岗位

每个角色页都来自 roles.yaml，可按目标岗位重组案例、实验和能力证明。

Agent Runtime / Tool-use

Agent 平台架构师

适合需要把 Agent 从 Demo 推到生产的团队，重点覆盖 runtime、tool-use、评测、权限和企业集成。

SFT / DPO

后训练应用算法专家

适合需要从线上 Agent 反馈构建偏好数据、评测集和训练闭环的团队。

Discovery / Workflow Mapping

AI Forward Deployed Engineer

适合需要同时理解业务流程、现场集成和 LLM 产品工程的团队。

代表案例

用深度 Case Study 展示架构、协作、评测和复盘能力。

2026

Agent 后训练数据飞轮

把线上 Agent badcase 转成可评测、可标注、可训练的偏好数据闭环。

查看详情

2025

企业级 Agent 平台

建设可评测、可审计、可扩展的企业级 Agent Runtime 与工具调用体系。

查看详情

实验记录

用实验记录展示评测、数据闭环和应用算法补强能力。

DPO

DPO for Tool-use Preference

用 chosen/rejected 偏好数据优化企业 Agent 的工具调用决策。

查看详情

Replay Eval

Agent 回放评测框架

用生产 trace 构建可复现的 Agent 回归评测，支撑 prompt、工具和模型变更。

查看详情

可信证据

DossierKit 鼓励用案例、实验、指标和复盘共同证明能力，而不是只堆关键词。

能把 Agent 平台拆成 runtime、tool-use、评测和权限审计四个可落地模块。

熟悉从 badcase 到偏好数据再到后训练实验的数据闭环。

适合需要同时推进架构设计、工程实现和业务协作的岗位。

方法论文章

沉淀方法论、复盘和系统化表达。

2026-06-26

企业 Agent 评测手册

把 Agent 评测从主观试用变成可回放、可分层、可发布门禁的工程系统。

联系

开放高质量 AI 平台、Agent 产品和应用算法机会

适合讨论 Agent 平台、LLM 应用架构、后训练数据闭环和 AI 产品落地。

demo@example.com GitHub LinkedIn