MindSpeed LLM率先支持MiniMax M2.7训练复现，加速模型迭代完成复杂任务

张开发

• 2026/6/3 14:52:02 • 15 分钟阅读

分享文章

MindSpeed LLM率先支持MiniMax M2.7训练复现，加速模型迭代完成复杂任务

2026年4月12日MiniMax正式开源MiniMax M2.7模型在真实软件工程、专业办公与多智能体协作场景中的出色表现是其第一个自我深度迭代的模型。昇腾MindSpeed LLM率先在Atlas 900 A3 SuperPoD液冷超节点、Atlas 800 A3风冷超节点上实现MiniMax M2.7端到端训练复现并依托全新FSDP2训练后端实现高效训练为大模型自我进化范式在昇腾生态的落地奠定关键基础。MiniMax M2.7模型亮点MiniMax M2.7是该系列首个深度参与自身迭代训练的旗舰模型能自主构建Agent Harness并完成高度复杂的生产力任务。模型自我进化实现大模型参与自身迭代的闭环在MLE Bench Lite测试中平均得牌率66.6%真实软件工程SWE-Pro56.22%、VIBE-Pro55.6%、Terminal Bench 257.0%达国际水准故障恢复时间缩至3分钟内专业办公能力GDPval-AA ELO得分1495开源最高Skills遵循率97%MMClaw评测接近闭源旗舰原生多智能体协作内化Agent Teams能力支持角色锚定与自主协调实现自组织集群MindSpeed LLM打通MiniMax M2.7适配实现稳定高效训练MiniMax M2.7基于稀疏MoE架构构建为在昇腾AI基础软硬件上充分发挥硬件性能并实现高效训练MindSpeed LLM团队完成了以下几个方面的关键工作引入GMM融合算子突破MoE前向计算瓶颈直接运行MiniMax M2.7原生MoE前向计算易出现训练进程卡死问题阻碍训练流程。MindSpeed LLM引入 moe_grouped_gemmGMM融合专家计算算子将多专家的分组矩阵乘运算统一融合为单次高效NPU调用彻底消除原生逐专家串行计算的执行瓶颈恢复训练进程的正常推进。深度适配MoE模块接口实现基于FSDP2框架高效EP切分MiniMax M2.7稀疏MoE架构的专家模块接口与FSDP2框架EP 切分逻辑存在约定差异导致专家参数无法按预期分片至各加速卡EP并行策略无法正常启用。MindSpeed LLM针对MiniMax M2.7的MoE模块接口进行深度适配对齐EP切分与路由分发逻辑使专家并行完整生效保障大规模MoE模型稳定训练。NPU亲和融合算子适配充分释放训练性能MiniMax M2.7原始实现中的RMSNorm、旋转位置编码Rotary Position Embedding、注意力计算等关键算子均为通用实现未能充分利用昇腾NPU的硬件特性。MindSpeed LLM系统性完成昇腾亲和融合算子的替换包括 fused_rmsnorm、fused_rotary_pos_emb及Flash Attention 昇腾适配版本从计算核心链路全面释放NPU硬件算力显著提升训练吞吐。依托MindSpeed LLM FSDP2训练后端实现新模型天级适配MindSpeed LLM全新FSDP2训练后端彻底解耦并行策略与模型结构无需修改MiniMax M2.7模型源码即可直接接入训练流程简单步骤即可一键开启FSDP2与EP专家并行的全栈优化能力。开发者无需深究复杂的并行逻辑即可在保障训练稳定性的同时显著缩短模型迭代周期真正实现‘开箱即用’的分布式训练体验。快速上手-基于MindSpeed LLM套件启动基于MiniMax M2.7训练环境准备请参考MindSpeed LLM安装指导文档https://atomgit.com/Ascend/MindSpeed-LLM/blob/master/docs/zh/pytorch/training/install_guide.md# MindSpeed加速库 git clone https://atomgit.com/ascend/MindSpeed.git cd MindSpeed git checkout master pip3 install -r requirements.txt pip3 install -e . cd .. # 准备MindSpeed LLM git clone https://atomgit.com/ascend/MindSpeed-LLM.git cd MindSpeed-LLM git checkout master pip3 install -r requirements.txt # 安装其余依赖库权重数据集下载Hugging Face格式的权重参考https://huggingface.co/MiniMaxAI/MiniMax-M2.7配置模型路径和数据集其中数据集配置支持内联配置或通过dataset_info.json注册配置教程详见https://atomgit.com/Ascend/MindSpeed-LLM/blob/master/docs/zh/pytorch/training/finetune/fsdp2/finetune_fsdp2.md启动训练cd MindSpeed-LLM bash examples/fsdp2/minimax_m27/pretrain_minimax_m2p7_229b_4K_fsdp2_A3.sh启动推理bash examples/fsdp2/minimax_m27/chat_minimax_m2p7_fsdp2_A3.sh模型脚本链接https://atomgit.com/Ascend/MindSpeed-LLM/tree/master/examples/fsdp2/minimax_m27结语本期为大家介绍了基于MindSpeed LLM高效部署MiniMax M2.7模型训推更多关于大语言模型训练的能力和技术欢迎开发者体验、贡献与共建MindSpeed LLM开源仓库https://atomgit.com/Ascend/MindSpeed-LLM昇腾社区MindSpeed专区https://www.hiascend.com/developer/software/mindspeed

MindSpeed LLM率先支持MiniMax M2.7训练复现，加速模型迭代完成复杂任务

最新文章

Java Loom响应式迁移全链路拆解（从线程模型颠覆到Project Loom生产就绪）

从开发到分发：手把手教你用Inno Setup为Qt应用制作专业安装包（附脚本自定义技巧）

告别‘Hello World’就卡住：保姆级Android Studio安装与环境变量配置（Win/Mac通用）

保姆级教程：用STM32CubeIDE搞定STM32F407的USB虚拟串口（CDC）通信与速度测试

从老式工控机到树莓派：一文理清RS-232、RS-485和TTL电平的‘前世今生’与适用场景

Vitis自定义IP编译过了，Debug却卡在QEMU文件缺失？一个手动创建空文件的“土办法”救了我

推荐文章

相关文章

分享文章

更多文章

Leather Dress Collection镜像免配置优势：预编译xformers+CUDA扩展免编译等待

MATLAB pchip函数实战：手把手教你实现自定义三阶Hermite插值（附完整代码）

圣女司幼幽-造相Z-Turbo实战案例：为小说《牧神记》制作章节封面图全流程

Hermes Agent 与 Harness：驱动式工程的完整体系

从Kaggle竞赛到工业部署：语义分割指标mIoU、Dice Score到底该怎么选？

还在手动写SonarQube规则？SITS2026已验证：用AI生成动态语义告警，覆盖Java/Python/Go三语言的4种上下文感知模式

AUTOSAR CanNm配置避坑指南：手把手教你搞定19个全局参数（含被动模式、PNC等关键项）

Cesium结合天地图实现高效三维地形高度获取的实践与优化

5分钟搞定！用趋动云平台一键部署Video-Background-Removal（附详细操作截图）

Z-Image-Turbo开源可部署实践：孙珍妮LoRA模型在政务新媒体形象设计中的合规应用

UABEA：高效处理Unity资源的专业工具完全实战手册

别再乱装驱动了！华为MateBook 16重装Win10/11后，这些官方工具和设置项必须检查