WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
OntoAgent:告别自由对话,本体驱动的 AI 需求访谈专家
总结
问题
方法
结果
要点
摘要

本文提出了 OntoAgent,一种由经验本体(Experience Ontology)驱动的智能 Agent,旨在自动化需求获取访谈。通过将 LLM 的生成能力与结构化的业务经验相结合,OntoAgent 在网站应用领域实现了 SOTA 性能,隐性需求捕捉率(IRE)提升了 33%,提问效率(TKQR)提升了 21%。

在软件工程中,需求获取(Requirements Elicitation) 访谈一直是一门“手艺活儿”。经验丰富的分析师知道如何从客户模糊的表述中挖掘出深藏的隐性需求,但这种能力极度依赖个人经验且难以规模化。随着大语言模型(LLM)的兴起,自动化访谈成为了可能,但简单的“对话框式”聊天真的能替代资深专家吗?

北京大学金芝教授团队的最新研究 OntoAgent 给出了一份硬核答卷:不仅要会聊天,更要带“脑子(经验本体)”去访谈。

TL;DR

OntoAgent 是一款将**经验本体(Experience Ontology)**引入 LLM 对话流程的需求获取 Agent。它放弃了传统 LLM“走一步看一步”的自由发挥模式,转而利用结构化的行业经验引导访谈。实验证明,它在捕捉隐性需求方面的效率和效果分别提升了 21%33%


1. 痛点:为什么 LLM “瞎聊天”搞不定需求?

传统的自动化访谈方法(Free-form Elicitation)通常直接将 LLM 设定为 Interviewer,然后进行多轮对话。这种模式存在两个致命伤:

  1. 漫无目的(Ad-hoc):模型往往在前几轮问出一些无关痛痒的通用问题,导致关键信息覆盖慢。
  2. 逻辑遗漏:对于像“界面风格”这种客户容易忽略、但对开发至关重要的非功能性需求,无引导的 LLM 很难系统性地触发相关讨论。

研究直觉(Insight):资深分析师在访谈时,脑子里其实有一张“地图”。看到客户要做网站,地图会自动导航到“交互、内容、风格”等模块,并根据客户的回答动态更新下一步的探索重点。


2. 核心架构:OntoAgent 的“大脑”与“逻辑”

OntoAgent 的工作分为两个阶段:经验归纳(Induction)引导访谈(Interviewing)

阶段一:构建“经验本体”

研究者定义了一个三层树状结构:

  • Aspect(方面):宏观分区(如:Interaction, Content)。
  • Dimension(维度):核心功能点(如:Login, Search)。
  • Slot(插槽):可澄清的细节(如:过滤选项、排序规则)。

模型架构图

阶段二:四步走的决策循环

为了让 AI 提问更精准,OntoAgent 在每轮对话前都要进行四项精密操作:

  1. ParseUser:不仅翻译字面意,更要判断用户是否“确认”或“拒绝”了某个业务维度。
  2. ScoreOnto:根据初始需求为本体节点预打分,确定初始导航方向。
  3. ReRankOnto:根据已有的对话上下文,实时重新排列未探索节点的优先级。
  4. GatePrune(门控剪枝):如果用户明确表示不需要某个模块,或者连续多次提问无果,AI 会智能地砍掉该分支,避免产生垃圾提问。

3. 实验战绩:全方位的跨越式提升

OntoAgent 在 101 个 Web 应用场景下进行了实测,并与包括 GPT 系列、Claude、DeepSeek 等强力基线进行了对比。

核心指标对比

  • 效果(IRE):在衡量隐性需求覆盖率的指标上,OntoAgent 达到了 0.69,而传统 Prompting 方法最高仅为 0.52。
  • 效率(TKQR):这意味着关键问题问得更早、更准。相比基线,OntoAgent 的效率提升了 21%

实验结果对比

维度分析:攻克“风格”难关

值得注意的是在 Style(风格) 这一维度的需求获取上。普通的对话模型几乎拿不到分(接近 0),因为它们很少会主动问美学建议。但 OntoAgent 凭借其“地图指导”,不仅会问,还能问得深入,在该维度的 IRE 大幅跃升至 0.55


4. 深度洞察:为何 OntoAgent 行得通?

  1. 解耦“问什么”与“怎么问”:OntoAgent 将访谈逻辑(本体)与表达能力(LLM)分离。本体决定了“哪些坑必须填”,而 LLM 确保了提问的自然顺滑。
  2. 动态修剪的智慧:软件需求是多变的,死板的问卷只会让人厌烦。GatePrune 机制模拟了人类专家的“察言观色”,有效减少了用户的认知负担。
  3. 模型无关性(Model-agnostic):论文实验显示,无论底层换成 Claude 4.5 还是 Qwen3,OntoAgent 框架都能带来稳定的增益,这证明其核心价值在于流程设计而非单一模型性能。

5. 局限性与展望

尽管 OntoAgent 在网站领域表现优异,但其性能仍受限于初期经验本体归纳的质量。如果 induction 数据量过大,可能会导致决策空间过载,从而降低初期的提问效率。

结论:OntoAgent 是需求工程从“Chat”转向“Agentic Workflow”的重要里程碑。它向我们展示了,未来的 AI 助手不应只是一个听话的对话框,更应该是一个装备了领域专家知识图谱、具备严密执行逻辑的数字员工。

发现相似论文

试试这些示例

  • 查找最近一年内其他结合本体论(Ontology)和大型语言模型(LLM)进行需求工程自动化的论文。
  • 本体归纳(Ontology Induction)在软件工程领域最早是由哪篇论文定义的,本文的自动化提取流程与其有何异同?
  • 目前有哪些研究正在将 Agentic 工作流应用在软件测试或系统设计等非访谈类的需求工程任务中?
目录
OntoAgent:告别自由对话,本体驱动的 AI 需求访谈专家
1. TL;DR
2. 1. 痛点:为什么 LLM “瞎聊天”搞不定需求?
3. 2. 核心架构:OntoAgent 的“大脑”与“逻辑”
3.1. 阶段一:构建“经验本体”
3.2. 阶段二:四步走的决策循环
4. 3. 实验战绩:全方位的跨越式提升
4.1. 核心指标对比
4.2. 维度分析:攻克“风格”难关
5. 4. 深度洞察:为何 OntoAgent 行得通?
6. 5. 局限性与展望