WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
OmniBehavior:大模型能真实模拟人类行为吗?一项基于百万级真实轨迹的深度测评
Summary
Problem
Method
Results
Takeaways
Abstract

OmniBehavior 是一个创新的用户行为模拟基准测试框架,旨在评估大语言模型(LLMs)对真实世界复杂行为的模拟能力。该基准基于快手平台 200 位真实用户的跨场景(直播、视频、电商等)长周期(三个月)脱敏数据构建,涵盖了 22 种异构行为。

在数字化生存的今天,能否用 AI 创造出逼真的“数字孪生”?这不仅是社会科学研究的理想,也是构建智能推荐系统和交互式 AI 的核心。然而,最近由中科院和快手联合发布的 OmniBehavior 研究指出:即使是目前最强大的 LLMs,距离成为合格的“人类模拟器”仍有很长的路要走。

1. 为什么我们需要更真实的用户模拟?

传统的研究往往将用户行为割裂开来。例如,一个模型可能只研究你在观看视频时的点赞,或者你在购物平台上的点击。但真实的人类行为是全域联动的:你可能因为一周前看到的一个穿搭视频,在今天进入直播间并产生购买行为。

目前的评价基准(Benchmark)大多存在以下通病:

  • 场景孤立:仅限于视频、或仅限于电商,缺乏跨场景关联。
  • 动作单一:只关注点击/点赞,忽略了评论、搜索、退货、投诉等复杂反馈。
  • 数据虚假:使用合成数据,缺失了真实人类性格中的复杂性、负面情绪和长尾特征。

为了打破这些限制,OmniBehavior 应运而生。

数据处理流程

2. OmniBehavior:从百万真实轨迹中炼金

OmniBehavior 转为模拟真实世界而生。它直接采用来自快手平台的脱敏真实数据,具备三大核心特征:

  1. 长周期 (Long-horizon):涵盖了 200 名用户连续三个月的完整行为,单人步数最高超过 10 万。
  2. 跨场景 (Cross-scenario):打通了短视频、直播、广告、电商、搜索五个核心业务场景。
  3. 异构行为 (Heterogeneous):支持 22 种动作,包括点赞、转发、购买、咨询、快进甚至“差评/投诉”。

3. 核心洞察:人类决策比想象中更复杂

研究团队通过对数据的统计分析,得出了几个颠覆性的结论:

  • “管窥效应” (Tunnel Vision):如果只看单一场景的数据,我们对用户的理解会减少 20%-30% 的兴趣维度。
  • 长链因果:超过 80% 的转化(如购买)其因果链条跨越了多个场景,且 60% 以上的决策线索追溯到 3 天之前。
  • 真实性不可替代:合成数据在统计特性上与真实轨迹存在巨大差异。

4. 测评结果:顶尖大模型集体的“滑铁卢”

研究者测试了包括 Claude-4.5、GPT-5.2、DeepSeek-V3 在内的国内外十余款顶尖模型。结果令人吃惊:

  • 分数普遍偏低:在百分制的测试中,表现最好的 Claude-Opus-4.5 仅得 44.55 分。
  • “长上下文”失灵:即使模型支持 128k 的窗口,单纯塞入更多历史记录,其预测准确率并没有像预想中那样线性上升,甚至在某些阶段出现下降。

模型表现对比

5. 发现三个致命“结构性偏差”

这是该研究最深刻的部分。研究发现模型不是“算不准”,而是“算不对”——它们具有以下三种人类不具备的通病:

  1. 多动症 (Hyper-activity):LLMs 总是预测用户会进行更多的点赞和点击。它们倾向于认为用户是“积极参与者”,而忽略了真实用户大部分时间是在沉默或无视。
  2. 均质化 (Persona Homogenization):通过向量分析发现,不同 AI 模拟出的“用户”行为极度趋同。它们都在扮演一个“平均人”,丢失了真实人类那份独特且珍贵的个性长尾。
  3. 乌托邦偏见 (Utopian Bias):由于强化学习(RLHF)的对齐,模型变得过于有礼貌和正能量。在模拟电商投诉对话时,AI 用户往往表现得优雅得体,而真实用户可能是愤怒、尖锐且充满负面情绪的。

6. 结语:路长且阻

OmniBehavior 的出现为用户行为建模树立了新的标杆。它告诉我们:真正的人类行为模拟,不仅仅是算法预测,更是对人性“幽暗”与“复杂”面的还原。未来的研究方向应当如何打破模型的“正能量滤镜”,提升模型对长周期因果的推理能力,将是决定“数字人”能否真正替代现实测试的关键。


本文基于论文《Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces》整理撰写。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图解决大语言模型中用户行为模拟偏差(如过度活跃或均质化)的相关论文。
  • 哪些研究探讨了 Transformer 模型在处理超长上下文(大于 100k tokens)时的性能瓶颈及其优化策略?
  • 检索最近关于跨场景(Cross-scenario)和多模态(Multi-modal)推荐系统与大模型结合的研究成果。
Contents
OmniBehavior:大模型能真实模拟人类行为吗?一项基于百万级真实轨迹的深度测评
1. 1. 为什么我们需要更真实的用户模拟?
2. 2. OmniBehavior:从百万真实轨迹中炼金
3. 3. 核心洞察:人类决策比想象中更复杂
4. 4. 测评结果:顶尖大模型集体的“滑铁卢”
5. 5. 发现三个致命“结构性偏差”
6. 6. 结语:路长且阻