【实测】GPT-6代号“土豆“还剩6天!48小时5款大模型扎堆,程序员到底该用哪个

张开发
2026/5/30 19:47:53 15 分钟阅读
【实测】GPT-6代号“土豆“还剩6天!48小时5款大模型扎堆,程序员到底该用哪个
摘要4月头一周AI圈的信息密度有点离谱。OpenAI的GPT-6内部代号Spud土豆被扒了个底朝天定档4月14号发布性能比GPT-5.4涨了40%上下文200万Token三个产品并成一个入口。差不多同一时间阿里、谷歌、微软和Cursor在48小时里前后脚甩了5款产品。这篇结合我自己写了10年代码的体感把每个产品拆开聊聊顺便说说不同场景下我会怎么选。目录摘要前言一、GPT-6这颗土豆到底什么来头1.1 消息怎么出来的1.2 参数对比1.3 三个产品并成一个1.4 几个有意思的信号二、阿里 Qwen3.6-Plus国产编程能力到目前为止最好的2.1 发布背景2.2 跑分2.3 我自己用的体感三、谷歌 Gemma 4开源圈的新选择3.1 出了几个版本3.2 几个我觉得值得记的点四、微软MAI系列 Cursor 3容易被忽略但不该忽略的4.1 微软的三个自研模型4.2 Cursor 3写代码这件事的方式变了五、我的判断和选型思路5.1 这一周说明了啥5.2 不同情况怎么选六、参考资料前言4月7号我花了差不多一整天在刷各种技术资讯。从GPT-6泄漏的参数到千问3.6的评测帖子信息量大到有种看不完就别看了的冲动。最后我把东西过了一遍最大的感受就一句话2026年模型之间的较量已经不是比谁参数大了而是比谁让写代码的人过得更舒服。这篇文章就是把这一周里我觉得最值得说的几件事整理清楚。如果你正纠结选哪个模型往下翻到第五节有个场景化的选型表。一、GPT-6这颗土豆到底什么来头1.1 消息怎么出来的4月5号X平台上一个叫iruletheworldmo的博主开始连发GPT-6的内部信息圈里管他叫草莓哥。量子位、36氪、华尔街见闻跟着转了一波。OpenAI管这个模型叫Spud——就是土豆——内部把它当成够到AGI的最后一把钥匙。1.2 参数对比指标GPT-5.4GPT-6 (泄露数据)变化综合性能基准线40%上下文窗口100万Token200万Token翻了一倍多模态后期接进来的一个架构原生搞定本质区别输入单价$2/MTok$2.5/MTok贵了25%输出单价$10/MTok$12/MTok贵了20%1.3 三个产品并成一个GPT-6最大的变化不在模型本身。它把ChatGPT聊天、Codex编程、Atlas浏览器Agent塞进了同一个壳子里。以后你跟AI说话的时候它能同时帮你查东西、写代码、操作网页不用手动来回切了。原来怎么干 你 → 打开ChatGPT聊 → 开Codex写码 → 开浏览器查资料 → 来回切窗口 现在的设想 你 → 一个统一的Agent聊写浏览看图 ↓ 200万Token上下文对话全程不会忘1.4 几个有意思的信号有两件事我觉得比模型参数本身更值得琢磨。第一件去年12月起OpenAI内部一直处于编程红色警报。原因很直接Anthropic的Claude在编码场景全面超了他们。GPT-6的Agent编程能力是被重点砸资源的方向。第二件产品部门改名了叫AGI部署部。不是研发部、不是产品部——“部署部”。两个字但意思差很多说明他们认为东西已经造好了现在是往外放的阶段。预训练3月17号就跑完了后训练和安全校验也收尾了。14号不是可能发是等着发。二、阿里 Qwen3.6-Plus国产编程能力到目前为止最好的2.1 发布背景4月2号阿里发了千问3.6系列的第一个模型Qwen3.6-Plus。官方直接打出中国编程能力最强的旗号不过发布方式倒是很低调——没搞发布会就在OpenRouter和百炼上悄悄上了线。2.2 跑分评测Qwen3.6-PlusGLM-5Kimi K2.5测的是啥SWE-bench国产第一落后落后代码修复Claw-Eval赢了-落后真实Agent任务Terminal-Bench领先--终端操作2.3 我自己用的体感拿千问3.6写了几个Go项目的代码说下直观感受。// 场景让它生成并发安全的LRU Cache// 结果一轮就给了能跑的代码包含sync.RWMutex和双向链表// 以前3.5版本同样的事得来回改两三次typeLRUCachestruct{capacityintmu sync.RWMutex cachemap[string]*list.Element ll*list.List}func(c*LRUCache)Get(keystring)(interface{},bool){c.mu.RLock()deferc.mu.RUnlock()ifelem,ok:c.cache[key];ok{c.ll.MoveToFront(elem)returnelem.Value.(*entry).value,true}returnnil,false}百炼API一百万Token收2块钱。国产模型里这个价格基本没有对手了偏偏编程能力还排第一。性价比确实没话说。三、谷歌 Gemma 4开源圈的新选择3.1 出了几个版本版本参数架构类型特点适合跑在哪31B Dense310亿稠密开源全球前三服务器26B A4B MoE260亿(实际激活38亿)MoE干掉过千亿级对手高效推理E4B40亿轻量笔记本跑得动边缘设备E2B20亿超轻只有1.5GB手机3.2 几个我觉得值得记的点Apache 2.0协议商用没有任何限制。对比Meta家LLaMA的那套协议这个确实友好不少。数学基准跑了89.2%。代码ELO 2150——这是编程竞赛水平的分数了。但最让我惊讶的是E2B版本。1.5个G的模型在手机上做多模态推理搁2024年这还是论文里的设想。# Gemma 4 E2B 在手机端部署的大概写法importmediapipeasmp# 1.5GB的模型文件modelmp.tasks.genai.LlmInference.create_from_model_path(model_pathgemma-4-e2b-it.task)# 手机端跑推理responsemodel.generate_response(分析这张架构图中的性能瓶颈)四、微软MAI系列 Cursor 3容易被忽略但不该忽略的4.1 微软的三个自研模型模型干什么的对比谁MAI-Transcribe-1语音转文字效果超了WhisperMAI-Voice-1声音克隆高保真MAI-Image-2文生图已上Foundry平台微软以前给人的印像是投钱给OpenAI、集成GPT就完了。但这三个自研模型说明他们在走另一条路——不做通用大模型在垂直场景上各个击破。4.2 Cursor 3写代码这件事的方式变了4月2号发布的代号Glass。以前用Cursor 你写代码 → AI帮你补几行、改一下 现在的Cursor 3 你说要啥 → Agent Window开十几个Agent → 分头写不同模块 你的角色从码农变成Agent管理员有个数据我反复看了几遍确认没看错Agent的使用量已经比Tab自动补全还高了。意思是用Cursor的人更多地在让AI主导写整段代码而不只是让它帮忙补行尾。AnysphereCursor母公司估值到了293亿美元Fortune 500里有一半多在用。五、我的判断和选型思路5.1 这一周说明了啥写代码这个赛道挤满了人。OpenAI搞编程红色警报千问硬打编程最强Cursor把IDE改造成Agent指挥台。各家都在争同一批用户。端侧跑模型不是PPT了。Gemma 4那个1.5GB的E2B版本是真能下载真能跑的。MoE架构的普及也在帮忙让小设备能带得动更大的模型。Agent从展示品变成了生产工具。Cursor拿调用量数据证明了——开发者是真的在让Agent写产代码不是拿来玩的。5.2 不同情况怎么选后端开发Go/Java/Python 平时干活Qwen3.6-Plus2块钱一百万Token够用 碰到硬骨头等GPT-614号出来再评估 IDE选择建议升Cursor 3Agent模式真的省时间 自己做项目或者小团队 首推Qwen3.6-Plus Cursor 3一个便宜一个高效 想在自己机器上跑Gemma 4 E4B笔记本带得动 需要语音功能试试微软MAI-Transcribe-1 做开源或搞研究的 首选Gemma 4Apache 2.0拿来就能用 也可以关注千问他们的东西也在陆续开源六、参考资料GPT-6曝光了 - 量子位48小时连发5款大模型 - 腾讯云开发者阿里发布Qwen3.6-Plus - 界面新闻Gemma 4开源全解读 - 36氪Cursor 3发布 - 智东西Cursor 3评测 - 搜狐科技 你用上面这些新模型了没GPT-6的三合一你觉得靠不靠谱评论区聊。看完觉得有用就点个赞 收藏 ⭐后面还会继续写。

更多文章