Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

OmniBehavior：大模型能真实模拟人类行为吗？一项基于百万级真实轨迹的深度测评

Summary

Problem

Method

Results

Takeaways

Abstract

OmniBehavior 是一个创新的用户行为模拟基准测试框架，旨在评估大语言模型（LLMs）对真实世界复杂行为的模拟能力。该基准基于快手平台 200 位真实用户的跨场景（直播、视频、电商等）长周期（三个月）脱敏数据构建，涵盖了 22 种异构行为。

在数字化生存的今天，能否用 AI 创造出逼真的“数字孪生”？这不仅是社会科学研究的理想，也是构建智能推荐系统和交互式 AI 的核心。然而，最近由中科院和快手联合发布的 OmniBehavior 研究指出：即使是目前最强大的 LLMs，距离成为合格的“人类模拟器”仍有很长的路要走。

1. 为什么我们需要更真实的用户模拟？

传统的研究往往将用户行为割裂开来。例如，一个模型可能只研究你在观看视频时的点赞，或者你在购物平台上的点击。但真实的人类行为是全域联动的：你可能因为一周前看到的一个穿搭视频，在今天进入直播间并产生购买行为。

目前的评价基准（Benchmark）大多存在以下通病：

场景孤立：仅限于视频、或仅限于电商，缺乏跨场景关联。
动作单一：只关注点击/点赞，忽略了评论、搜索、退货、投诉等复杂反馈。
数据虚假：使用合成数据，缺失了真实人类性格中的复杂性、负面情绪和长尾特征。

为了打破这些限制，OmniBehavior 应运而生。

数据处理流程

2. OmniBehavior：从百万真实轨迹中炼金

OmniBehavior 转为模拟真实世界而生。它直接采用来自快手平台的脱敏真实数据，具备三大核心特征：

长周期 (Long-horizon)：涵盖了 200 名用户连续三个月的完整行为，单人步数最高超过 10 万。
跨场景 (Cross-scenario)：打通了短视频、直播、广告、电商、搜索五个核心业务场景。
异构行为 (Heterogeneous)：支持 22 种动作，包括点赞、转发、购买、咨询、快进甚至“差评/投诉”。

3. 核心洞察：人类决策比想象中更复杂

研究团队通过对数据的统计分析，得出了几个颠覆性的结论：

“管窥效应” (Tunnel Vision)：如果只看单一场景的数据，我们对用户的理解会减少 20%-30% 的兴趣维度。
长链因果：超过 80% 的转化（如购买）其因果链条跨越了多个场景，且 60% 以上的决策线索追溯到 3 天之前。
真实性不可替代：合成数据在统计特性上与真实轨迹存在巨大差异。

4. 测评结果：顶尖大模型集体的“滑铁卢”

研究者测试了包括 Claude-4.5、GPT-5.2、DeepSeek-V3 在内的国内外十余款顶尖模型。结果令人吃惊：

分数普遍偏低：在百分制的测试中，表现最好的 Claude-Opus-4.5 仅得 44.55 分。
“长上下文”失灵：即使模型支持 128k 的窗口，单纯塞入更多历史记录，其预测准确率并没有像预想中那样线性上升，甚至在某些阶段出现下降。

模型表现对比

5. 发现三个致命“结构性偏差”

这是该研究最深刻的部分。研究发现模型不是“算不准”，而是“算不对”——它们具有以下三种人类不具备的通病：

多动症 (Hyper-activity)：LLMs 总是预测用户会进行更多的点赞和点击。它们倾向于认为用户是“积极参与者”，而忽略了真实用户大部分时间是在沉默或无视。
均质化 (Persona Homogenization)：通过向量分析发现，不同 AI 模拟出的“用户”行为极度趋同。它们都在扮演一个“平均人”，丢失了真实人类那份独特且珍贵的个性长尾。
乌托邦偏见 (Utopian Bias)：由于强化学习（RLHF）的对齐，模型变得过于有礼貌和正能量。在模拟电商投诉对话时，AI 用户往往表现得优雅得体，而真实用户可能是愤怒、尖锐且充满负面情绪的。

6. 结语：路长且阻

OmniBehavior 的出现为用户行为建模树立了新的标杆。它告诉我们：真正的人类行为模拟，不仅仅是算法预测，更是对人性“幽暗”与“复杂”面的还原。未来的研究方向应当如何打破模型的“正能量滤镜”，提升模型对长周期因果的推理能力，将是决定“数字人”能否真正替代现实测试的关键。

本文基于论文《Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces》整理撰写。

Find Similar Papers

Try Our Examples

查找最近其他试图解决大语言模型中用户行为模拟偏差（如过度活跃或均质化）的相关论文。
哪些研究探讨了 Transformer 模型在处理超长上下文（大于 100k tokens）时的性能瓶颈及其优化策略？
检索最近关于跨场景（Cross-scenario）和多模态（Multi-modal）推荐系统与大模型结合的研究成果。

Contents

OmniBehavior：大模型能真实模拟人类行为吗？一项基于百万级真实轨迹的深度测评

1. 1. 为什么我们需要更真实的用户模拟？

2. 2. OmniBehavior：从百万真实轨迹中炼金

3. 3. 核心洞察：人类决策比想象中更复杂

4. 4. 测评结果：顶尖大模型集体的“滑铁卢”

5. 5. 发现三个致命“结构性偏差”

6. 6. 结语：路长且阻