2025_NIPS_Off-policy Reinforcement Learning with Model-based Exploration Augmentation

张开发
2026/5/30 12:30:19 15 分钟阅读
2025_NIPS_Off-policy Reinforcement Learning with Model-based Exploration Augmentation
论文核心总结与翻译一、主要内容本文聚焦离线强化学习(RL)中的探索问题,针对现有主动探索在高维环境中效率低、被动探索样本多样性有限的缺陷,提出一种名为MoGE(Modelic Generative Exploration)的生成式探索范式。MoGE通过扩散生成器合成未充分探索的关键状态,并借助单步想象世界模型构建动力学一致的经验,无需修改原有算法核心结构即可无缝集成,最终在OpenAI Gym和DeepMind Control Suite的复杂控制任务中,显著提升了基线算法的样本效率和最终性能。二、核心创新点关键状态生成机制:采用分类器引导的扩散模型,以策略熵或TD误差为效用函数,定向生成对政策优化有高潜在价值的关键状态,且通过理论证明生成状态与最优策略的稳态占据测度对齐,保证状态空间合规性。单步想象世界模型:设计确定性的单步动力学模型,通过监督学习高效预训练,预测下一状态、奖励和终止因子,确保生成转移的动力学一致性,避免贝尔曼有效性破坏。灵活的离线训练框架:提出混合采样策略,将MoGE生成的关键转移与回放缓冲区样本结合,通过重要性采样近似处理分布偏移,实现与现有离线演员-评论家算法的无缝集成。三、核心部分翻译(Markdown格式)Abstract探索是强化

更多文章