WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2025] FlowScene:多模态图驱动的室内场景生成,开启风格一致性新篇章
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 FlowScene,这是一个基于多模态图(Multimodal Graph)驱动的三分支室内场景生成模型。该模型利用 Rectified Flow(修正流)架构,协同生成场景布局、物体形状及其纹理,在保持高写实度的同时,实现了跨物体的风格一致性(Style Consistency)。

TL;DR

FlowScene 引入了一种基于 Rectified Flow (修正流) 的三分支架构,通过多模态场景图(Text + Image)实现了室内场景的端到端生成。它不仅能精准控制家具的摆放(Layout),还能确保沙发、床头柜等不同物体在几何形状(Shape)和视觉纹理(Texture)上保持高度的风格统一,且生成速度较传统扩散模型提升了近 6 倍。

痛点深挖:为什么“整屋定制”这么难?

在 3D 场景生成领域,研究者们长期面临一个矛盾:

  1. 检索派 (Retrieval-based):利用 LLM 算好位置,从库里找模型拼凑。这种方法出的图很快,但家具往往“南辕北辙”——库里的椅子跟桌子根本不是一个系列,看起来像廉价的出租屋。
  2. 生成派 (Generative-based):尝试直接生成网格(Mesh)。虽然理论上上限高,但现有模型(如基于扩散模型的图生成)往往在纹理上惨不忍睹,或者无法处理文本与图像混合的复杂需求。

作者敏锐地察觉到,问题的核心在于信息孤岛。在去噪生成过程中,每个物体的生成过程是相对独立的,缺乏一种“跨节点”的风格感知机制。

核心机制:多模态图修正流 (Multimodal Graph Rectified Flow)

FlowScene 的核心直觉是:让物体在生成的每一秒都在互相聊天。

1. 三分支协同架构

模型被划分为三个互补的分支,通过不同的感知单元进行特化:

  • 布局分支 (Layout Branch):生成物体的 Bounding Box(位置、大小、旋转)。
  • 形状分支 (Shape Branch):利用 VQ-VAE 潜空间生成物体的体素几何。
  • 纹理分支 (Texture Branch):在生成的几何基础上,锚定高频纹理细节。

2. 信息交换单元 (InfoExchangeUnit)

这是 FlowScene 的灵魂。在 Rectified Flow 的步进过程中,每个分支都嵌入了一个基于 GCN 的信息交换单元。 模型架构图

  • 如何运作? 当你在生成一把椅子时,这个单元会从场景图中读取邻居节点(比如餐桌)的特征。如果餐桌是“现代简约木质风”,椅子也会通过图边缘的特征流动,被约束向同类风格收敛。

3. Rectified Flow 的降维打击

相比传统的 DDPM 扩散模型,Rectified Flow 学习的是一种直连轨迹(Straight-line path)。这意味着它可以用更少的步数(25步 vs 扩散模型的100+步)达到更高的质量,且数值解的轨迹更加稳定,这对于多物体协同生成的收敛至关重要。

实验战绩:全方位的 SOTA

作者在 3D-FRONT 数据集上进行了严耕。结果显示,FlowScene 在所有关键指标上均实现了霸榜。

定量分析

在与 CommonScenes, EchoScene 等强基线的对比中,FlowScene 在渲染质量(FID)和物体保真度上表现惊人: 实验结果对比

  • 保真度:在卧室场景,FID 从 42.38 降低到 35.01。
  • 速度:布局和形状生成仅需 6.83 秒,几乎是即时反馈。

定性分析:视觉上的“高级感”

如下图所示,FlowScene 生成的餐厅场景中,六把椅子的木材纹路和结构细节高度一致(Green Box 区域),而对比方法(Red Box)则出现了明显的形变或属性错配。 视觉效果对比

深度洞察与总结

为什么 FlowScene 效果这么好?

  1. Inductive Bias 的精妙运用:它没有死磕一个巨大的模型生成全场景,而是通过图结构(Graph Structure)把“风格一致性”这一先验知识强行注入了 Rectified Flow。
  2. 多模态融合的灵活性:用户可以给一堆文字,也可以给一张样板间照片中的柜子作为参考图,模型都能通过节点的 Modality-specific projector 完美消化。

局限性 (Limitations): 尽管在室内场景无敌,但 FlowScene 目前对室外大规模、动态环境的支持尚待验证。此外,它对前端“场景图构建器”(如 LLM)的解析精度有强依赖,如果 LLM 把“桌子在椅子上”这种逻辑搞错,模型也会忠实地生成出物理崩塌的场景。

结论: FlowScene 不仅仅是一个生成模型,它为 3D 内容创作(AIGC-3D)提供了一个可扩展的工业级后端框架。对于未来的 VR 装修设计或游戏场景自动生成,这无疑是一块重要的技术拼图。

Find Similar Papers

Try Our Examples

  • 查找最近一年内在 3D 场景生成任务中使用 Rectified Flow 或 Flow Matching 技术取代传统扩散模型的 SOTA 论文。
  • 哪篇工作首次提出了 3D-FRONT 数据集的场景图表示(SG-FRONT),FlowScene 在其基础上做了哪些关于多模态融合的具体改进?
  • 探究目前有哪些 3D 生成研究将 VQ-VAE 与结构化潜变量(Structured Latents)结合,用于解决物体表面纹理连贯性的问题?
Contents
[CVPR 2025] FlowScene:多模态图驱动的室内场景生成,开启风格一致性新篇章
1. TL;DR
2. 痛点深挖:为什么“整屋定制”这么难?
3. 核心机制:多模态图修正流 (Multimodal Graph Rectified Flow)
3.1. 1. 三分支协同架构
3.2. 2. 信息交换单元 (InfoExchangeUnit)
3.3. 3. Rectified Flow 的降维打击
4. 实验战绩:全方位的 SOTA
4.1. 定量分析
4.2. 定性分析:视觉上的“高级感”
5. 深度洞察与总结