AMD高管痛斥Claude变蠢:23万次调用记录曝光,复杂工程已瘫痪
近日,曾被公认为顶尖AI编程工具的Claude Code,陷入了前所未有的信任危机。率先发难的是AMD人工智能部门主管,她直言不讳地吐槽Claude Code越更新越差,不仅“变笨”,还学会了偷懒和摆烂。
更有甚者,她拿出了数万条实际运行数据,为这一指控提供了确凿的证据。
一则GitHub Issue引发全网热议
争议的导火索是4月2日一位昵称为stellaraccident的用户在项目页面的反馈。她直截了当地质疑:“2月份的更新让Claude Code无法胜任复杂的工程项目。”
经查证,该用户正是芯片巨头AMD的人工智能主管Stella Laurenzo。
她明确指出了更新后Claude Code的四大致命缺陷,堪称“四宗罪”:
无视用户指令
提供错误的“最佳”修复方案
执行与要求背道而驰的操作
未完成任务便宣称已完成
为了证明非空穴来风,Stella Laurenzo展示了团队数月的操作日志,记录了6852次会话,包含234760次工具调用和17871个思维块。
数据铁证如山:2月后的Claude Code明显在“摸鱼”,稍微复杂点的活儿根本靠不住。
Claude Code 的摆烂程度究竟有多严重?
通过对会话日志的量化分析,Stella指出,思考内容脱敏功能的上线,与复杂长会话工程质量的崩塌有着直接关联。
数据显示,扩展思考token并非可有可无,而是模型执行多步骤研究、遵守规范、精细修改代码的关键。一旦思考深度下降,模型就会从“先研究后改”变成“直接乱改”,导致各种质量问题。
Stella Laurenzo及其团队从以下几个维度剖析了Claude Code的退化:
1.思考内容隐藏时间线与质量回退相吻合
从会话JSONL文件分析来看,情况一目了然:
调查报告显示,质量恶化问题在3月8日被独立报告,而这天恰好是脱敏思考块占比突破50%的日子。据悉,脱敏功能是分阶段部署的,从1.5%逐步提升至25%、58.4%,最终在一周内达到100%。
2.脱敏前思考深度已大幅下降
1月份时,Claude Code每次思考的内容大约有 2200 个字符,能看出是在认真琢磨问题。可到了 2 月底,思考字符数直接暴跌至 720 个,相当于减少了三分之二的思考量,思考深度下降了 67%。
除了思考偷懒,Stella Laurenzo 和AMD 团队还检测了 Claude Code 的多项质量指标。
在思考分析完成前,他们已基于 18000 + 用户提示词独立计算以下指标:
此外,他们也编写了 stop-phrase-guard.sh 停止钩子,用于自动检测推诿、提前停止、请求许可等敷衍行为。
结果显示,3 月 8 日后的 17 天内,这个钩子被触发了 173 次,而在此之前,从未被触发过。
另外,Claude Code 的工作态度也发生了彻底转变,最核心的变化就是修改代码的逻辑:以前它会先认真阅读相关文件,再动手修改,但对 234760 次工具调用的分析显示,现在的它,已经不再先阅读代码再修改了。
调查数据清晰地呈现了这一退化:1 月份时,Claude Code 改一次代码平均要读取 6.6 次文件,生怕出现错误。这算是它的“良好期”,会先读取目标文件、关联文件,全局检索用法,查看头文件与测试用例,再进行精准修改。
可到了 3 月底,它平均只读 2 次文件就敢直接动手修改,降幅超过 70%。这样一来,问题自然层出不穷:仅读取当前文件就直接修改,常常忽略上下文,进而出现乱插代码、破坏原有注释、重复编写逻辑等问题,写出来的代码 Bug 满天飞。
很多程序员反馈,后续修改这些 Bug 的时间,比自己重新写一段代码还要久。
除此之外,Claude Code 全新写入的占比翻倍,模型更倾向于重写整个文件,而非精准修改。这样做虽然速度更快,但会丢失精度与上下文感知,反而得不偿失。
她指出,扩展思考是模型实现以下能力的核心机制:
行动前规划多步骤方案(读取文件、执行顺序)
recalling 并遵循项目规范
输出前自我检查错误
判断任务是否完成、会话是否继续
在数百次工具调用中保持逻辑连贯
而当思考深度不足时,模型就会选择最省力的操作:不读取文件直接修改、未完成任务就停止、推诿责任、用最简单的方案替代正确方案。
从 2 月到 3 月,Claude Code API 请求量直接暴涨了 80 倍,输出的 token 也增加了 64 倍。据估算,每月的使用成本从几百美元,直接飙升到 4 万多美元。本来想省单次思考的算力,结果因为 Claude Code 反复改错、需要不断重试,反而让整体成本直接失控,简直是赔本赚吆喝。
诉求:虽然我已换了其他大模型,但还是希望 Anthropic 能修复产品
面对这样的结果,Stella Laurenzo 表示,这不是她一个人遇到的问题,而且情况已经严重到无法在工作环境中继续使用 Claude Code 的地步。
她说道:“我们的工作环境复杂度高且稳定,通过挖掘数月日志,我们明确了问题的根源——自 2026 年 2 月起,Claude 已无法可靠完成复杂工程任务。团队所有资深工程师均反馈了类似问题,其中一位工程师拥有可复现的测试流程,我们基于其日志开展实验与数据分析,且已尝试所有公开的变通方案。”
在 Stella 看来,自己发布这份反馈,并不是为了抹黑 Anthropic,而是真心希望他们能重视这个问题,拯救 Claude Code 这个曾经的好产品。“我们已切换至其他服务商,其服务质量更优,但 Claude 曾为我们提供良好支持,因此提交此问题,希望 Anthropic 能修复产品。”
对此,其提出了四个建议:
关于思考资源分配的透明度:如果思考 token 被减少或设上限,依赖深度推理的用户需要知情。目前的 redact-thinking header 让外部无法验证这一点。
“最大思考”等级:执行复杂工程工作流的用户愿意为保证深度推理付出更高费用。目前的订阅模式没有区分需要每次 200 个思考 token 的用户和需要 20,000 个的用户。
API 响应中的思考 token 指标:即使思考内容被隐藏,如果在使用情况响应中暴露 thinking_tokens,用户仍可监控自己的请求是否获得了所需的推理深度。
高阶用户的金丝雀指标:停止钩子违规率(从 0 → 每天 10 次)是一个可机器读取的信号,可以在整个用户群体中监控,作为质量回退的领先指标。
网友吐槽:从“封神”到“劝退”,落差太大
不光 AMD 这位高管,全网的程序员们看到这份反馈后,像是找到了组织,评论区里一片哀嚎。
有人表示,这段时间一直怀疑是自己技术下滑了,写代码总被 Claude Code 带偏,直到看到这份反馈才知道,原来大家都有一样的困扰。
作为 Claude 曾经的忠实用户,程序员 bbecausereasonss 在 Reddit 上发帖称:“我已经无法再心安理得地向客户推荐 Claude Code 了。”
他表示:“我是 MAX 用户。刚开始使用 Claude Code 时,我真的被震撼到了。自 2022 年以来我一直在用 AI 做开发,这一次确实让我感觉像是一个重要的历史时刻。我曾经把 Claude Code 推荐进客户的项目和开发流程中,在社交媒体上大力称赞它,也在私下里不断安利给身边的人。”
但他话锋一转,吐槽当前版本的模型状态:“懒惰、无知、能力退化且视野狭隘,在还没有真正理解整体问题和各种边界情况之前,就盲目开始‘修复’——而且大多数补丁反而把事情搞得更糟。我已经无法再负责任地继续推荐它了,因为这只会让我看起来像个傻子,或者在胡说八道,甚至两者兼具。”
他还直言:“Claude Opus 在过去几周简直是一场灾难——甚至还没提到使用额度的问题。一个很贴切的比喻是,它像是被‘做了脑叶切除手术’,智商从 135–150 直接掉到 90–100,感觉退化成了 Sonnet 3.5。真的很失望。”
还有人追问Stella Laurenzo 究竟在用什么模型替代 Claude Code:
“Claude 已经退化到无法被信任去完成复杂工程任务的地步。”
差不多,但我觉得更准确的说法是:Claude 已经退化到连任何工程任务都不值得信任的程度了。
它从来没有一次就把事情做对过,写出来的代码充满 bug 和重复逻辑,而且必须全程盯着,否则它一定会把东西搞坏。
它已经变成了另一个 AI“玩具”。挺可惜的。
能否分享一下你在用的“其他工具”?我也想试试。
不过,Stella Laurenzo并没有指出自己用的是哪款模型替代。而是补充说道:「在 6 个月前,Claude 在推理质量和执行能力上几乎是独一档的。但现在,其他竞品也需要被非常认真地重新评估。就能力层级而言,Anthropic早已不再是唯一一个处在 Claude Opus 曾经所在水平的玩家。」
现在网友们的呼声其实很一致:对于 AI 编程助手,可以接受它慢一点,但绝对不能接受它变蠢、变懒,更不能接受它敷衍了事。毕竟大家用 AI 编程助手,不是想要一个“快但错”的打字机,而是想要一个能一起思考、能扛事的队友,要是连最基本的思考都没了,那这个工具,也就失去了它存在的意义。
对此,你在使用 Claude Code 有什么样的感受?
参考:
https://github.com/anthropics/claude-code/issues/42796
https://github.com/stellaraccident
https://www.theregister.com/2026/04/06/anthropic_claude_code_dumber_lazier_amd_ai_director/
阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”
截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
上下滑动查看更多