内卷地狱

LeWorldModel

Edit Me

联合嵌入预测架构(JEPA)为在紧凑隐空间中学习世界模型提供了一个颇具吸引力的框架,但现有方法仍然较为脆弱,往往依赖复杂的多项损失、指数移动平均、预训练编码器或辅助监督来避免表征坍塌。在本研究中,我们提出 LeWorldModel(LeWM)——首个仅用两项损失函数(下一嵌入预测损失 + 强制隐嵌入服从高斯分布的正则项)就能从原始像素端到端稳定训练的 JEPA。与当前唯一存在的端到端替代方案相比,可调损失超参数从六个降至一个。LeWM 拥有 1500 万参数,可在单张 GPU 上数小时内完成训练,规划速度最高比基于基础模型的世界模型快 48 倍,同时在多种 2D 和 3D 控制任务上保持竞争力。除控制任务外,我们还通过对物理量的探针分析表明,LeWM 的隐空间编码了有意义的物理结构。惊讶度评估进一步确认,该模型能可靠地检测出物理上不合理的事件。

<https://arxiv.org/pdf/2603.19312>


贡献者


这篇文章有帮助吗?

最近更新

Involution Hell© 2026 byCommunityunderCC BY-NC-SA 4.0CCBYNCSA