JEPA到LeWM的网络结构演化全解析

张开发
2026/5/30 11:29:33 15 分钟阅读
JEPA到LeWM的网络结构演化全解析
一、JEPA联合嵌入预测架构核心网络结构2022JEPA的原始设计是三组件架构核心思想是在潜在空间预测目标表征而非像素重建组件功能典型实现参数更新方式上下文编码器(Eₓ)处理可见输入提取上下文特征ViT/CNN将输入映射到潜在空间梯度下降直接优化目标编码器(Eᵧ)处理目标区域提供稳定目标表征与Eₓ结构完全相同**EMA指数移动平均**更新避免训练坍塌预测器§基于上下文预测目标表征轻量级Transformer/MLP梯度下降优化工作流程输入被划分为可见上下文区域和被遮盖目标区域Eₓ编码上下文区域→zₓEᵧ编码目标区域→zᵧEMA更新P接收zₓ→预测目标表征ẑᵧ损失函数最小化ẑᵧ与zᵧ的距离MSE/对比损失关键设计理念表征空间预测避免像素级重建的高成本与噪声干扰EMA目标编码器借鉴MoCo动量机制提供稳定训练信号无生成组件不包含解码器专注于预测而非生成二、演化阶段一I-JEPA图像JEPA2023— JEPA首次落地I-JEPA将JEPA架构首次应用于图像自监督学习结构上有以下调整编码器优化采用ViT-L/16作为Eₓ和Eᵧ的基础架构输入图像分块14×14支持多尺度掩码块级/区域级/全局级提升上下文理解能力预测器增强引入分层预测预测不同尺度的目标表征加入VICReg损失辅助训练进一步防止表征坍塌训练创新提出块掩码策略随机遮盖图像中75%的块迫使模型学习全局结构保留EMA目标编码器确保训练稳定性三、演化阶段二V-JEPA视频JEPA2024-2025— 动态世界理解V-JEPA将JEPA扩展到视频领域适配时间维度的动态预测架构扩展编码器升级为时空ViT在空间维度基础上增加时间维度建模支持视频帧序列输入处理时空上下文与目标区域预测器革新加入时间注意力机制捕捉帧间动态关系实现多步预测可预测未来多个时刻的表征V-JEPA2.1优化编码器参数增加到ViT-L/14提升表征能力引入对比学习辅助损失增强时空一致性支持零样本视频规划为机器人应用奠定基础四、演化阶段三PLDM预测性潜在动态模型2025— 世界模型方向探索PLDM是JEPA向具身智能/机器人控制转型的关键尝试架构重构保留编码器预测器核心但目标编码器Eᵧ被移除预测器升级为动态预测器接收当前状态动作→预测下一状态关键变化动作嵌入首次引入动作空间适配机器人控制场景多损失函数使用7项损失组合预测损失、对比损失、正则化等确保训练稳定编码器需外部预训练如用V-JEPA2.1初始化增加部署复杂度局限多损失组合导致工程复杂度高依赖预训练编码器无法端到端训练原始像素五、终极形态LeWorldModelLeWM2026— JEPA极简主义革命LeWM将JEPA架构简化到极致实现单GPU可训、端到端稳定训练的突破核心结构双组件架构移除EMA目标编码器组件功能具体实现参数规模关键创新编码器(E)将像素观测映射到潜在空间ViT-Tiny12层3头192维5M参数移除LayerNorm添加单层MLPBN投影适配防坍塌优化预测器§基于当前状态动作预测下一状态6层Transformer16头10%dropout10M参数动作通过**Adaptive LayerNorm(adaln)**每一层注入参数初始化为零革命性变化对比表架构维度JEPA/I-JEPA/V-JEPALeWM影响组件数量3EₓEᵧP2EP移除EMA编码器降低33%复杂度目标编码器必需EMA更新完全移除消除EMA维护成本简化训练流程训练损失多损失组合≥3项仅2项1. 下一状态预测损失2. SIGReg高斯正则化从6超参数→仅1个核心超参数编码器训练依赖外部预训练/EMA端到端训练原始像素无需预训练降低部署门槛动作注入无/简单拼接Adaln分层注入动作信息更有效融入预测提升动态建模能力参数规模数百M→数B仅15M单GPU可训训练时间从数周→几小时训练原理革新SIGReg正则化强制潜在嵌入服从高斯分布从根本解决表征坍塌替代EMA机制纯潜在空间预测不生成像素只预测抽象特征规划速度提升48倍端到端优化从原始像素→潜在表征→动态预测全程无人工干预三、核心演化脉络总结JEPA(2022) → I-JEPA(2023) → V-JEPA(2024) → V-JEPA2.1(2025) → PLDM(2025) → LeWM(2026) 三组件架构 图像落地 视频扩展 时空增强 动态探索 极简革命 EₓEᵧP 块掩码 时空ViT 多步预测 动作引入 EP双组件 EMA编码器 VICReg损失 时间注意力 零样本规划 多损失组合 SIGReg正则 预训练依赖 端到端训练关键演进逻辑组件精简从3组件→2组件移除EMA目标编码器降低复杂度功能聚焦从通用表征学习→动态世界模型适配机器人控制场景训练简化从多损失EMA→双损失SIGReg实现端到端稳定训练效率提升参数从数B→15M训练从多GPU→单GPU规划速度提升48倍LeWM并非从零开始而是杨立昆团队对JEPA理念的终极极简实现保留了潜在空间预测核心同时解决了历史版本的训练不稳定、工程复杂、部署成本高等痛点为世界模型产业化提供了可行路径。

更多文章