Claude越更越废?AMD AI负责人甩出23万次调用记录:已“变蠢+摆烂”,复杂工程根本干不了

张开发
2026/5/30 11:29:55 15 分钟阅读
Claude越更越废?AMD AI负责人甩出23万次调用记录:已“变蠢+摆烂”,复杂工程根本干不了
整理 | 苏宓出品 | CSDNIDCSDNnews“Claude 无法胜任复杂的工程任务。”近日曾被视为最强 AI 编码工具之一的 Claude Code遭遇了前所未有的信任危机。带头提出质疑的是 AMD 人工智能部门的负责人——她直言吐槽 Claude Code 越更新越差不仅“变蠢”还学会了偷懒摆烂。不仅如此她更拿出了数万条实际使用数据进行深度分析实锤了这一说法。一则 GitHub issue引全网热议这场争议的导火索源于 4 月 2 日一名昵称为 stellaraccident 的用户在 Claude Code 的 GitHub 项目页面上提交的一个问题反馈Issue。她没绕任何弯子直接在 issue 标题中就带着不满“2 月份的更新导致 Claude Code 无法用于复杂的工程任务”。根据该用户的 GitHub 个人资料和相关 Linkedln 帖子显示这位发帖人正是芯片制造商 AMD 人工智能部门主管 Stella Laurenzo。她明确列出了更新后 Claude Code 的四大问题堪称“四宗罪”无视指令声称“最简单的修复方案”但其实是错误的执行与要求相反的操作在未按要求完成的情况下声称已完成为了证明自己并非随口吐槽Stella Laurenzo 还拿出了团队几个月的使用日志里面详细记录了 6852 次会话这些会话包含了 234760 次工具调用和 17871 个思维块。所有数据都指向一个结论2 月份之后的 Claude Code就是在摆烂稍微复杂一点的工程活根本信不过。Claude Code 到底摆烂成什么样通过对会话文件的量化分析Stella Laurenzo 指出思考内容脱敏功能redact-thinking-2026-02-12的上线与复杂长会话工程工作流的质量退化有着精准的对应关系。数据显示扩展思考 token 并非“锦上添花”而是模型执行多步骤研究、遵守规范、精细修改代码的核心必要条件。一旦思考深度降低模型的工具使用模式就会从“先研究后修改”明显转变为“直接修改”这也直接引发了用户反馈的各类质量问题。Stella Laurenzo 以及其团队基于以下几个维度剖析了 Claude Code 这几个月间的变化1. 思考内容隐藏时间线与质量回退相吻合从会话 JSONL 文件中对思考块的分析结果来看变化更为直观调查报告显示质量退化问题于 3 月 8 日被独立上报而这一天恰好是脱敏思考块占比突破 50% 的日子。据悉脱敏功能是分阶段部署的从 1.5% 逐步提升至 25%、58.4%最终在一周内达到 100%。2. 脱敏前思考深度已大幅下降1 月份时Claude Code 每次思考的内容大约有 2200 个字符能看出是在认真琢磨问题。可到了 2 月底思考字符数直接暴跌至 720 个相当于减少了三分之二的思考量思考深度下降了 67%。除了思考偷懒Stella Laurenzo 和 AMD 团队还检测了 Claude Code 的多项质量指标。在思考分析完成前他们已基于 18000 用户提示词独立计算以下指标此外他们也编写了 stop-phrase-guard.sh 停止钩子用于自动检测推诿、提前停止、请求许可等敷衍行为。结果显示3 月 8 日后的 17 天内这个钩子被触发了 173 次而在此之前从未被触发过。另外Claude Code 的工作态度也发生了彻底转变最核心的变化就是修改代码的逻辑以前它会先认真阅读相关文件再动手修改但对 234760 次工具调用的分析显示现在的它已经不再先阅读代码再修改了。调查数据清晰地呈现了这一退化1 月份时Claude Code 改一次代码平均要读取 6.6 次文件生怕出现错误。这算是它的“良好期”会先读取目标文件、关联文件全局检索用法查看头文件与测试用例再进行精准修改。可到了 3 月底它平均只读 2 次文件就敢直接动手修改降幅超过 70%。这样一来问题自然层出不穷仅读取当前文件就直接修改常常忽略上下文进而出现乱插代码、破坏原有注释、重复编写逻辑等问题写出来的代码 Bug 满天飞。很多程序员反馈后续修改这些 Bug 的时间比自己重新写一段代码还要久。除此之外Claude Code 全新写入的占比翻倍模型更倾向于重写整个文件而非精准修改。这样做虽然速度更快但会丢失精度与上下文感知反而得不偿失。Stella Laurenzo 还进一部分分析了受影响的工作流主要包括50 并发代理会话执行系统编程C、MLIR、GPU 驱动30 分钟以上自主运行执行复杂多文件修改严格的项目规范5000 字 CLAUDE.md 文档代码评审、工单管理、迭代调试良好期单周末合并 19.1 万行代码其指出扩展思考是模型实现以下能力的核心机制行动前规划多步骤方案读取文件、执行顺序recalling 并遵循项目规范输出前自我检查错误判断任务是否完成、会话是否继续数百次工具调用中保持逻辑连贯而当思考深度不足时模型就会选择最省力的操作不读取文件直接修改、未完成任务就停止、推诿责任、用最简单的方案替代正确方案。从 2 月到 3 月Claude Code API 请求量直接暴涨了 80 倍输出的 token 也增加了 64 倍。据估算每月的使用成本从几百美元直接飙升到 4 万多美元。本来想省单次思考的算力结果因为 Claude Code 反复改错、需要不断重试反而让整体成本直接失控简直是赔本赚吆喝。诉求虽然我已换了其他大模型但还是希望 Anthropic 能修复产品面对这样的结果Stella Laurenzo 表示这不是她一个人遇到的问题而且情况已经严重到无法在工作环境中继续使用 Claude Code 的地步。她说道“我们的工作环境复杂度高且稳定通过挖掘数月日志我们明确了问题的根源——自 2026 年 2 月起Claude 已无法可靠完成复杂工程任务。团队所有资深工程师均反馈了类似问题其中一位工程师拥有可复现的测试流程我们基于其日志开展实验与数据分析且已尝试所有公开的变通方案。”在 Stella 看来自己发布这份反馈并不是为了抹黑 Anthropic而是真心希望他们能重视这个问题拯救 Claude Code 这个曾经的好产品。“我们已切换至其他服务商其服务质量更优但 Claude 曾为我们提供良好支持因此提交此问题希望 Anthropic 能修复产品。”对此其提出了四个建议关于思考资源分配的透明度如果思考 token 被减少或设上限依赖深度推理的用户需要知情。目前的 redact-thinking header 让外部无法验证这一点。“最大思考”等级执行复杂工程工作流的用户愿意为保证深度推理付出更高费用。目前的订阅模式没有区分需要每次 200 个思考 token 的用户和需要 20,000 个的用户。API 响应中的思考 token 指标即使思考内容被隐藏如果在使用情况响应中暴露 thinking_tokens用户仍可监控自己的请求是否获得了所需的推理深度。高阶用户的金丝雀指标停止钩子违规率从 0 → 每天 10 次是一个可机器读取的信号可以在整个用户群体中监控作为质量回退的领先指标。网友吐槽从“封神”到“劝退”落差太大不光 AMD 这位高管全网的程序员们看到这份反馈后像是找到了组织评论区里一片哀嚎。有人表示这段时间一直怀疑是自己技术下滑了写代码总被 Claude Code 带偏直到看到这份反馈才知道原来大家都有一样的困扰。作为 Claude 曾经的忠实用户程序员 bbecausereasonss 在 Reddit 上发帖称“我已经无法再心安理得地向客户推荐 Claude Code 了。”他表示“我是 MAX 用户。刚开始使用 Claude Code 时我真的被震撼到了。自 2022 年以来我一直在用 AI 做开发这一次确实让我感觉像是一个重要的历史时刻。我曾经把 Claude Code 推荐进客户的项目和开发流程中在社交媒体上大力称赞它也在私下里不断安利给身边的人。”但他话锋一转吐槽当前版本的模型状态“懒惰、无知、能力退化且视野狭隘在还没有真正理解整体问题和各种边界情况之前就盲目开始‘修复’——而且大多数补丁反而把事情搞得更糟。我已经无法再负责任地继续推荐它了因为这只会让我看起来像个傻子或者在胡说八道甚至两者兼具。”他还直言“Claude Opus 在过去几周简直是一场灾难——甚至还没提到使用额度的问题。一个很贴切的比喻是它像是被‘做了脑叶切除手术’智商从 135–150 直接掉到 90–100感觉退化成了 Sonnet 3.5。真的很失望。”还有人追问 Stella Laurenzo 究竟在用什么模型替代 Claude Code“Claude 已经退化到无法被信任去完成复杂工程任务的地步。”差不多但我觉得更准确的说法是Claude 已经退化到连任何工程任务都不值得信任的程度了。它从来没有一次就把事情做对过写出来的代码充满 bug 和重复逻辑而且必须全程盯着否则它一定会把东西搞坏。它已经变成了另一个 AI“玩具”。挺可惜的。能否分享一下你在用的“其他工具”我也想试试。不过Stella Laurenzo 并没有指出自己用的是哪款模型替代。而是补充说道「在 6 个月前Claude 在推理质量和执行能力上几乎是独一档的。但现在其他竞品也需要被非常认真地重新评估。就能力层级而言Anthropic 早已不再是唯一一个处在 Claude Opus 曾经所在水平的玩家。」现在网友们的呼声其实很一致对于 AI 编程助手可以接受它慢一点但绝对不能接受它变蠢、变懒更不能接受它敷衍了事。毕竟大家用 AI 编程助手不是想要一个“快但错”的打字机而是想要一个能一起思考、能扛事的队友要是连最基本的思考都没了那这个工具也就失去了它存在的意义。对此你在使用 Claude Code 有什么样的感受参考https://github.com/anthropics/claude-code/issues/42796https://github.com/stellaraccidenthttps://www.theregister.com/2026/04/06/anthropic_claude_code_dumber_lazier_amd_ai_director/推荐阅读马斯克最新对话AI 毁灭人类的概率有 20%但它将创造一个没有钱的“全民高收入”时代华人辍学博士揪出Claude Code 51万行源码泄露官方请求下架超8000个GitHub代码库并回应这次是人为失误无人被解雇仅花16小时、成本不到7元把Mac爆改成“触摸屏”不用AI、不改硬件他们用一个镜子解决一切【活动分享】48 小时与 50 位大厂技术决策者共探 AI 落地真路径。由 CSDN奇点智能研究院联合举办的「全球机器学习技术大会」正式升级为「奇点智能技术大会」。2026 奇点智能技术大会将于 4 月 17-18 日在上海环球港凯悦酒店正式召开大会聚焦大模型技术演进、智能体系统工程、OpenClaw 生态实践及 AI 行业落地等十二大专题板块特邀来自BAT、京东、微软、小红书、美团等头部企业的 50 位技术决策者分享实战案例。旨在帮助技术管理者与一线 AI 落地人员规避选型风险、降低试错成本、获取可复用的工程方法论真正实现 AI 技术的规模化落地与商业价值转化。这不仅是一场技术的盛宴更是决策者把握 2026 AI 拐点的战略机会。

更多文章