本文提出了 GeoNDC,一种面向行星级地球观测数据的可查询神经数据立方体。该方法将海量时空观测数据编码为连续的时空隐式神经场(INR),实现了在 20 年全球 MODIS 反射率数据集上的 SOTA 压缩比(约 95:1 至 380:1)与亚秒级随机构思查询。
TL;DR
地球观测(EO)数据正面临爆炸式增长,传统的栅格存储(Raster-based)已难以为继。GeoNDC (Geographic Neural Data Cube) 创新性地将 20 年跨度的全球卫星数据编码进一个不到 500MB 的神经网络中。它不仅实现了高达 380:1 的惊人压缩比,更神奇的是,你可以像调用函数一样直接“查询”地球上任何一点、任何时间的观测值,甚至自动“修补”被云层遮挡的像素。
痛点深挖:栅格存储的“时空隔离”
传统的遥感数据中心像是堆满图纸的图书馆:
- 存储臃肿:单张 20 年全球反射率档案可达数百 GB。
- 查询代价高:想看某个点在 20 年间的变化?你需要打开成千上万个文件。
- 观测不连续:云遮挡是光学遥感的噩梦。现有的“去云”通常是外挂步骤,容易产生光谱扭曲。
GeoNDC 的核心直觉是:地表物候变化是有规律的,且空间边界相对固定。 这种时空冗余不应只靠压缩算法消除,而应通过神经网络的“归纳偏置(Inductive Bias)”来参数化。
方法论详解:解耦的双分支“神经织网”
为了处理地球数据极端的时空各向异性(空间纹理精细、时间演变平滑),作者设计了一个巧妙的架构:

- 静态高分辨率 2D 分支:使用
Multi-resolution HashGrid专门记录地表的海岸线、道路、田块边界等“硬”特征。这些特征在几十年间基本不变。 - 动态粗粒度 3D 分支:通过
Spatial Downscaling机制,强制网络只学习大尺度的时序趋势(如季节性变绿)。这有效避免了遥感中常见的“时间条纹”伪影。 - 掩码训练(Masked Training):这是 GeoNDC 最硬核的地方。训练时直接跳过被云遮挡的像素,让网络通过周围未遮挡的点和时间前后的逻辑来“推测”缺失值。这种“内置去云”比插值更符合物理规律。
实验与结果:81 倍速的查询效率
在 2005-2024 年的全球 MODIS 数据集上,GeoNDC 展现了统治级的性能:

- 压缩率:168 GB 的 float64 原始数据压缩到 0.44 GB。即使对比针对性优化过的 Int16 格式,依然有 95 倍的优势。
- 查询延迟:检索 20 年的单像素曲线仅需 8ms。在普通笔记本显卡上就能实现流畅的全球交互漫游。
- 多变量整合:在 HiGLASS 实验中,作者将 LAI(叶面积指数)和 FPAR(光合有效辐射)联合编码,共享潜空间。这不仅进一步省了空间,还保证了两个生物物理变量之间的物理一致性。
深度洞察:AI 原生基础设施的未来
GeoNDC 的出现意味着:“模型即数据” (Data as Models)。
未来,我们分发遥感数据可能不再是发送巨大的 GeoTIFF 瓦片,而是分发一个 .gndc 权重文件。科学家在浏览器中打开这个模型,利用 WebGPU 直接在本地进行毫秒级的时序分析。
局限性: 当然,GeoNDC 也有其挑战。模型训练(Encoding)是计算密集型的,需要强大的 GPU;对于极端的突发事件(如瞬时火灾、洪涝),其平滑的偏置可能会导致细节丢失。
总结: GeoNDC 不只是一个更高效的压缩包,它是一个“随调随用”的智能地球。它打破了存储、访问与重建的隔阂,为行星尺度上的实时科学分析铺平了道路。
数据与代码开源于:https://github.com/jianboqi/pygndc
