MindSpeed LLM率先支持MiniMax M2.7训练复现,加速模型迭代完成复杂任务

张开发
2026/6/3 14:52:02 15 分钟阅读
MindSpeed LLM率先支持MiniMax M2.7训练复现,加速模型迭代完成复杂任务
2026年4月12日MiniMax正式开源MiniMax M2.7模型在真实软件工程、专业办公与多智能体协作场景中的出色表现是其第一个自我深度迭代的模型。昇腾MindSpeed LLM率先在Atlas 900 A3 SuperPoD液冷超节点、Atlas 800 A3风冷超节点上实现MiniMax M2.7端到端训练复现并依托全新FSDP2训练后端实现高效训练为大模型自我进化范式在昇腾生态的落地奠定关键基础。MiniMax M2.7模型亮点MiniMax M2.7是该系列首个深度参与自身迭代训练的旗舰模型能自主构建Agent Harness并完成高度复杂的生产力任务。模型自我进化实现大模型参与自身迭代的闭环在MLE Bench Lite测试中平均得牌率66.6%真实软件工程SWE-Pro56.22%、VIBE-Pro55.6%、Terminal Bench 257.0%达国际水准故障恢复时间缩至3分钟内专业办公能力GDPval-AA ELO得分1495开源最高Skills遵循率97%MMClaw评测接近闭源旗舰原生多智能体协作内化Agent Teams能力支持角色锚定与自主协调实现自组织集群MindSpeed LLM打通MiniMax M2.7适配实现稳定高效训练MiniMax M2.7基于稀疏MoE架构构建为在昇腾AI基础软硬件上充分发挥硬件性能并实现高效训练MindSpeed LLM团队完成了以下几个方面的关键工作引入GMM融合算子突破MoE前向计算瓶颈直接运行MiniMax M2.7原生MoE前向计算易出现训练进程卡死问题阻碍训练流程。MindSpeed LLM引入 moe_grouped_gemmGMM融合专家计算算子将多专家的分组矩阵乘运算统一融合为单次高效NPU调用彻底消除原生逐专家串行计算的执行瓶颈恢复训练进程的正常推进。深度适配MoE模块接口实现基于FSDP2框架高效EP切分MiniMax M2.7稀疏MoE架构的专家模块接口与FSDP2框架EP 切分逻辑存在约定差异导致专家参数无法按预期分片至各加速卡EP并行策略无法正常启用。MindSpeed LLM针对MiniMax M2.7的MoE模块接口进行深度适配对齐EP切分与路由分发逻辑使专家并行完整生效保障大规模MoE模型稳定训练。NPU亲和融合算子适配充分释放训练性能MiniMax M2.7原始实现中的RMSNorm、旋转位置编码Rotary Position Embedding、注意力计算等关键算子均为通用实现未能充分利用昇腾NPU的硬件特性。MindSpeed LLM系统性完成昇腾亲和融合算子的替换包括 fused_rmsnorm、fused_rotary_pos_emb及Flash Attention 昇腾适配版本从计算核心链路全面释放NPU硬件算力显著提升训练吞吐。依托MindSpeed LLM FSDP2训练后端实现新模型天级适配MindSpeed LLM全新FSDP2训练后端彻底解耦并行策略与模型结构无需修改MiniMax M2.7模型源码即可直接接入训练流程简单步骤即可一键开启FSDP2与EP专家并行的全栈优化能力。开发者无需深究复杂的并行逻辑即可在保障训练稳定性的同时显著缩短模型迭代周期真正实现‘开箱即用’的分布式训练体验。快速上手-基于MindSpeed LLM套件启动基于MiniMax M2.7训练环境准备请参考MindSpeed LLM安装指导文档https://atomgit.com/Ascend/MindSpeed-LLM/blob/master/docs/zh/pytorch/training/install_guide.md# MindSpeed加速库 git clone https://atomgit.com/ascend/MindSpeed.git cd MindSpeed git checkout master pip3 install -r requirements.txt pip3 install -e . cd .. # 准备MindSpeed LLM git clone https://atomgit.com/ascend/MindSpeed-LLM.git cd MindSpeed-LLM git checkout master pip3 install -r requirements.txt # 安装其余依赖库权重数据集下载Hugging Face格式的权重参考https://huggingface.co/MiniMaxAI/MiniMax-M2.7配置模型路径和数据集其中数据集配置支持内联配置或通过dataset_info.json注册配置教程详见https://atomgit.com/Ascend/MindSpeed-LLM/blob/master/docs/zh/pytorch/training/finetune/fsdp2/finetune_fsdp2.md启动训练cd MindSpeed-LLM bash examples/fsdp2/minimax_m27/pretrain_minimax_m2p7_229b_4K_fsdp2_A3.sh启动推理bash examples/fsdp2/minimax_m27/chat_minimax_m2p7_fsdp2_A3.sh模型脚本链接https://atomgit.com/Ascend/MindSpeed-LLM/tree/master/examples/fsdp2/minimax_m27结语本期为大家介绍了基于MindSpeed LLM高效部署MiniMax M2.7模型训推更多关于大语言模型训练的能力和技术欢迎开发者体验、贡献与共建MindSpeed LLM开源仓库https://atomgit.com/Ascend/MindSpeed-LLM昇腾社区MindSpeed专区https://www.hiascend.com/developer/software/mindspeed

更多文章