单张照片把物体变成完整3D数字模型,LiTo用表面光场标记化的技术改变了3D重建的规则。2026年3月,苹果AI团队在ICLR发布了LiTo模型。传统方法需要多张不同角度和光照条件下的照片才能还原细节,而LiTo凭借手机拍摄的一张照片就能做到这一点。 传统方法的问题在于,单张RGB图只能提供特定视角下的二维投影,缺少物体背面几何结构和材质BRDF等信息。即使拥有众多精确标定照片,特征点匹配神经辐射场也很难处理复杂材质。为了弥补这个信息缺口,研究团队把表面光场这个物理概念数学重构。表面光场记录了物体表面每一点在不同观察方向下的光线强度与光谱分布。LiTo模型通过编码器—解码器双向架构将输入图像压缩成潜在空间代码,并还原出完整3D对象。 用户可以指定任意新视角来查看物体的光影效果。这个设计确保了多视角下高光移动和反射强度变化的物理合理性。 测试结果显示,在多视角光影一致性这一核心维度上,LiTo比当前最优的TRELLIS模型提升了约37%。对于金属表面、玻璃材质、液体介质等复杂场景,LiTo也有显著优势。系统采用随机子采样技术迫使解码器学会举一反三,在训练完成后就能动态生成符合物理规律的光影效果。 这次测试使用了数千个高质量3D对象作为训练数据,每个对象在150个不同视角、3种光照条件下物理渲染生成海量样本。为了优化性能,苹果AI团队还对模型进行了进一步优化。 LiTo把3D内容创作门槛降到了普通用户的水平:用户只需用智能手机随手一拍就能获得高质量可交互3D数字模型。对于电商行业来说,一张主图就能生成可旋转、可缩放、可交互的3D展示模型。游戏、影视、设计等行业也能通过LiTo快速将概念图转化为基础3D模型。文化遗产数字化方面也受益于LiTo技术:博物馆珍贵藏品通过单张照片实现高保真3D化。 这个技术还有望与苹果Vision Pro生态协同合作:空间计算需要海量3D内容支持,而传统建模方式难以满足需求。LiTo提供了拍摄即建模能力,可能成为Vision Pro内容生态加速器。 展望未来还有很多问题需要解决:比如小样本泛化问题还有待进一步研究;非刚性物体动态重建是否需要新的光场标记范式?精度与效率之间如何取得平衡?希望大家继续思考这些问题并提供更多见解。