本文提出了 FlowScene,这是一个基于多模态图(Multimodal Graph)驱动的三分支室内场景生成模型。该模型利用 Rectified Flow(修正流)架构,协同生成场景布局、物体形状及其纹理,在保持高写实度的同时,实现了跨物体的风格一致性(Style Consistency)。
TL;DR
FlowScene 引入了一种基于 Rectified Flow (修正流) 的三分支架构,通过多模态场景图(Text + Image)实现了室内场景的端到端生成。它不仅能精准控制家具的摆放(Layout),还能确保沙发、床头柜等不同物体在几何形状(Shape)和视觉纹理(Texture)上保持高度的风格统一,且生成速度较传统扩散模型提升了近 6 倍。
痛点深挖:为什么“整屋定制”这么难?
在 3D 场景生成领域,研究者们长期面临一个矛盾:
- 检索派 (Retrieval-based):利用 LLM 算好位置,从库里找模型拼凑。这种方法出的图很快,但家具往往“南辕北辙”——库里的椅子跟桌子根本不是一个系列,看起来像廉价的出租屋。
- 生成派 (Generative-based):尝试直接生成网格(Mesh)。虽然理论上上限高,但现有模型(如基于扩散模型的图生成)往往在纹理上惨不忍睹,或者无法处理文本与图像混合的复杂需求。
作者敏锐地察觉到,问题的核心在于信息孤岛。在去噪生成过程中,每个物体的生成过程是相对独立的,缺乏一种“跨节点”的风格感知机制。
核心机制:多模态图修正流 (Multimodal Graph Rectified Flow)
FlowScene 的核心直觉是:让物体在生成的每一秒都在互相聊天。
1. 三分支协同架构
模型被划分为三个互补的分支,通过不同的感知单元进行特化:
- 布局分支 (Layout Branch):生成物体的 Bounding Box(位置、大小、旋转)。
- 形状分支 (Shape Branch):利用 VQ-VAE 潜空间生成物体的体素几何。
- 纹理分支 (Texture Branch):在生成的几何基础上,锚定高频纹理细节。
2. 信息交换单元 (InfoExchangeUnit)
这是 FlowScene 的灵魂。在 Rectified Flow 的步进过程中,每个分支都嵌入了一个基于 GCN 的信息交换单元。

- 如何运作? 当你在生成一把椅子时,这个单元会从场景图中读取邻居节点(比如餐桌)的特征。如果餐桌是“现代简约木质风”,椅子也会通过图边缘的特征流动,被约束向同类风格收敛。
3. Rectified Flow 的降维打击
相比传统的 DDPM 扩散模型,Rectified Flow 学习的是一种直连轨迹(Straight-line path)。这意味着它可以用更少的步数(25步 vs 扩散模型的100+步)达到更高的质量,且数值解的轨迹更加稳定,这对于多物体协同生成的收敛至关重要。
实验战绩:全方位的 SOTA
作者在 3D-FRONT 数据集上进行了严耕。结果显示,FlowScene 在所有关键指标上均实现了霸榜。
定量分析
在与 CommonScenes, EchoScene 等强基线的对比中,FlowScene 在渲染质量(FID)和物体保真度上表现惊人:

- 保真度:在卧室场景,FID 从 42.38 降低到 35.01。
- 速度:布局和形状生成仅需 6.83 秒,几乎是即时反馈。
定性分析:视觉上的“高级感”
如下图所示,FlowScene 生成的餐厅场景中,六把椅子的木材纹路和结构细节高度一致(Green Box 区域),而对比方法(Red Box)则出现了明显的形变或属性错配。

深度洞察与总结
为什么 FlowScene 效果这么好?
- Inductive Bias 的精妙运用:它没有死磕一个巨大的模型生成全场景,而是通过图结构(Graph Structure)把“风格一致性”这一先验知识强行注入了 Rectified Flow。
- 多模态融合的灵活性:用户可以给一堆文字,也可以给一张样板间照片中的柜子作为参考图,模型都能通过节点的 Modality-specific projector 完美消化。
局限性 (Limitations): 尽管在室内场景无敌,但 FlowScene 目前对室外大规模、动态环境的支持尚待验证。此外,它对前端“场景图构建器”(如 LLM)的解析精度有强依赖,如果 LLM 把“桌子在椅子上”这种逻辑搞错,模型也会忠实地生成出物理崩塌的场景。
结论: FlowScene 不仅仅是一个生成模型,它为 3D 内容创作(AIGC-3D)提供了一个可扩展的工业级后端框架。对于未来的 VR 装修设计或游戏场景自动生成,这无疑是一块重要的技术拼图。
