FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

[CVPR 2025] FlowScene：多模态图驱动的室内场景生成，开启风格一致性新篇章

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 FlowScene，这是一个基于多模态图（Multimodal Graph）驱动的三分支室内场景生成模型。该模型利用 Rectified Flow（修正流）架构，协同生成场景布局、物体形状及其纹理，在保持高写实度的同时，实现了跨物体的风格一致性（Style Consistency）。

TL;DR

FlowScene 引入了一种基于 Rectified Flow (修正流) 的三分支架构，通过多模态场景图（Text + Image）实现了室内场景的端到端生成。它不仅能精准控制家具的摆放（Layout），还能确保沙发、床头柜等不同物体在几何形状（Shape）和视觉纹理（Texture）上保持高度的风格统一，且生成速度较传统扩散模型提升了近 6 倍。

痛点深挖：为什么“整屋定制”这么难？

在 3D 场景生成领域，研究者们长期面临一个矛盾：

检索派 (Retrieval-based)：利用 LLM 算好位置，从库里找模型拼凑。这种方法出的图很快，但家具往往“南辕北辙”——库里的椅子跟桌子根本不是一个系列，看起来像廉价的出租屋。
生成派 (Generative-based)：尝试直接生成网格（Mesh）。虽然理论上上限高，但现有模型（如基于扩散模型的图生成）往往在纹理上惨不忍睹，或者无法处理文本与图像混合的复杂需求。

作者敏锐地察觉到，问题的核心在于信息孤岛。在去噪生成过程中，每个物体的生成过程是相对独立的，缺乏一种“跨节点”的风格感知机制。

核心机制：多模态图修正流 (Multimodal Graph Rectified Flow)

FlowScene 的核心直觉是：让物体在生成的每一秒都在互相聊天。

1. 三分支协同架构

模型被划分为三个互补的分支，通过不同的感知单元进行特化：

布局分支 (Layout Branch)：生成物体的 Bounding Box（位置、大小、旋转）。
形状分支 (Shape Branch)：利用 VQ-VAE 潜空间生成物体的体素几何。
纹理分支 (Texture Branch)：在生成的几何基础上，锚定高频纹理细节。

2. 信息交换单元 (InfoExchangeUnit)

这是 FlowScene 的灵魂。在 Rectified Flow 的步进过程中，每个分支都嵌入了一个基于 GCN 的信息交换单元。模型架构图

如何运作？ 当你在生成一把椅子时，这个单元会从场景图中读取邻居节点（比如餐桌）的特征。如果餐桌是“现代简约木质风”，椅子也会通过图边缘的特征流动，被约束向同类风格收敛。

3. Rectified Flow 的降维打击

相比传统的 DDPM 扩散模型，Rectified Flow 学习的是一种直连轨迹（Straight-line path）。这意味着它可以用更少的步数（25步 vs 扩散模型的100+步）达到更高的质量，且数值解的轨迹更加稳定，这对于多物体协同生成的收敛至关重要。

实验战绩：全方位的 SOTA

作者在 3D-FRONT 数据集上进行了严耕。结果显示，FlowScene 在所有关键指标上均实现了霸榜。

定量分析

在与 CommonScenes, EchoScene 等强基线的对比中，FlowScene 在渲染质量（FID）和物体保真度上表现惊人：实验结果对比

保真度：在卧室场景，FID 从 42.38 降低到 35.01。
速度：布局和形状生成仅需 6.83 秒，几乎是即时反馈。

定性分析：视觉上的“高级感”

如下图所示，FlowScene 生成的餐厅场景中，六把椅子的木材纹路和结构细节高度一致（Green Box 区域），而对比方法（Red Box）则出现了明显的形变或属性错配。视觉效果对比

深度洞察与总结

为什么 FlowScene 效果这么好？

Inductive Bias 的精妙运用：它没有死磕一个巨大的模型生成全场景，而是通过图结构（Graph Structure）把“风格一致性”这一先验知识强行注入了 Rectified Flow。
多模态融合的灵活性：用户可以给一堆文字，也可以给一张样板间照片中的柜子作为参考图，模型都能通过节点的 Modality-specific projector 完美消化。

局限性 (Limitations)：尽管在室内场景无敌，但 FlowScene 目前对室外大规模、动态环境的支持尚待验证。此外，它对前端“场景图构建器”（如 LLM）的解析精度有强依赖，如果 LLM 把“桌子在椅子上”这种逻辑搞错，模型也会忠实地生成出物理崩塌的场景。

结论： FlowScene 不仅仅是一个生成模型，它为 3D 内容创作（AIGC-3D）提供了一个可扩展的工业级后端框架。对于未来的 VR 装修设计或游戏场景自动生成，这无疑是一块重要的技术拼图。

Find Similar Papers

Try Our Examples

查找最近一年内在 3D 场景生成任务中使用 Rectified Flow 或 Flow Matching 技术取代传统扩散模型的 SOTA 论文。
哪篇工作首次提出了 3D-FRONT 数据集的场景图表示（SG-FRONT），FlowScene 在其基础上做了哪些关于多模态融合的具体改进？
探究目前有哪些 3D 生成研究将 VQ-VAE 与结构化潜变量（Structured Latents）结合，用于解决物体表面纹理连贯性的问题？

Contents

[CVPR 2025] FlowScene：多模态图驱动的室内场景生成，开启风格一致性新篇章

1. TL;DR

2. 痛点深挖：为什么“整屋定制”这么难？

3. 核心机制：多模态图修正流 (Multimodal Graph Rectified Flow)

3.1. 1. 三分支协同架构

3.2. 2. 信息交换单元 (InfoExchangeUnit)

3.3. 3. Rectified Flow 的降维打击

4. 实验战绩：全方位的 SOTA

4.1. 定量分析

4.2. 定性分析：视觉上的“高级感”

5. 深度洞察与总结