本文提出了 ReLi3D,这是首个能够在 1 秒内(约 0.3s)从稀疏多视图图像中同步重建完整 3D 几何、空间变化的 PBR 材质及环境光照的统一端到端流水线。该方法通过 Transformer 架构融合多视图约束,显著提升了材质与光照的解耦精度。
TL;DR
ReLi3D 是一款颠覆性的 3D 重建框架,它将传统的几何重建、材质预测与光照分解(Inverse Rendering)整合进一个不到 1 秒的推理过程中。通过多视图 Transformer 融合与物理一致性渲染器,它首次实现了在稀疏视角下精准剥离“光照”与“材质”,生成的 3D 模型可以直接在任何光照环境下进行物理真实的渲染。
背景:解不掉的“光影魔术”
在 3D 视觉领域,从照片恢复 3D 物体一直面临一个“不可能三角”:几何、材质、光照。对于单张照片,模型很难判断一个点由于“颜色亮”是因为它本身白(Albedo),还是因为光照强(Illumination)。
现有的 Large Reconstruction Models (LRMs) 虽然快,但往往选择逃避:它们预测的是带影子的“纹理”,一旦改变光照环境,影子依然“焊”在模型上。ReLi3D 的核心 Insight 在于:几何一致性是解耦的救星。当多个视角观察同一个表面点时,光照保持一致,材质属性也应当一致,这种多视图约束极大程度地缩小了问题的解空间。
核心方法论:双路径与物理渲染器
1. 跨视图融合架构
ReLi3D 不再简单地处理单图,而是通过一个共享的交叉调节 Transformer (Cross-conditioning Transformer) 摄取任意数量的视图。它引入了 "Hero View"(英雄视图)的概念作为 Query 流,同时利用其他视角作为 Memory 流,构建出统一的特征三平面(Triplane)。

2. 双路径并行预测
- 几何与材质路径(Blue Path):从 Triplane 中解码出 Mesh 和空间变化的 svBRDF(反射率、粗糙度、金属度、法线)。
- 光照路径(Green Path):这是一个独立的照明分支,它不仅看物体,还通过掩码感知(Mask-aware)技术观察背景,预测出一个高效的 RENI++ 隐代码,代表高动态范围(HDR)的环境光。
3. 可微 MC+MIS 渲染器
这是本文的“物理督导”。在训练阶段,模型会利用蒙特卡洛(MC)采样和多重重要性采样(MIS)将预测的材质和光照重新“组合”成图像,并与真实照片对比。这种闭环确保了模型预测出的参数不是乱填的,而是必须符合物理光学定律。
实验战绩:全方位的碾压
在对比实验中,ReLi3D 展示了令人惊叹的材质解耦能力。相比于之前的 SOTA 工作 SF3D 或 SPAR3D,ReLi3D 预测的 Albedo(底色)更纯净,去除了阴影干扰。

- 性能指标:Albedo 预测的 PSNR 达到 25.00 dB(前人最好为 18.4 dB 左右)。
- 重光照效果:由于材质预测极其精确,将其放入新的 HDR 环境中渲染时,几乎能完美复现 Ground Truth 的光影细节。
- 实时性:即便使用了复杂的 Transformer 融合,其总耗时仅为 0.31s,比许多基于扩散生成的方法(耗时 30s-70s)快了两个数量级。
深度洞察
ReLi3D 的成功秘诀不仅仅是算法,还有其混合领域训练协议(Mixed-domain Training)。它巧妙地结合了:
- 合成 PBR 数据:提供完美的材质监督。
- 真实世界捕获(UCO3D):通过自监督增强模型的泛化性。
这种通过“稀疏视图”强制解耦的路径,避开了一直以来单视图重建中严重的歧义问题。
总结与展望
ReLi3D 证明了:要获得高质量的 3D 资产,不一定需要漫长的扩散或优化过程。通过合理的架构设计和物理约束,前馈网络(Feed-forward)同样能处理复杂的逆向渲染任务。
局限性:目前三平面的分辨率(384x384)限制了其几何细节的进一步上限。如果未来能结合更高分辨率的特征表示,即便不再使用复杂的渲染器,我们也可能获得电影级的 3D 重建效果。
本文基于 RELI3D 论文重构,该项目已开源,旨在推动 3D 视觉系统的下一代数字化进程。
