“Claude Code更新废了”，热议Issue：思考深度下降67%，已无法胜任复杂的工程任务

张开发

• 2026/4/17 15:34:48 • 15 分钟阅读

分享文章

“Claude Code更新废了”，热议Issue：思考深度下降67%，已无法胜任复杂的工程任务

文章目录前言从深思熟虑到拍脑袋决策三个危险信号AI开始偷懒了症状一不阅读就编辑Editing Without Reading症状二推理循环Reasoning Loops症状三用户打断率飙升12倍为什么这对复杂工程是致命的社区的集体焦虑当我们在谈AI退化时我们在谈什么结语我们需要怎样的AI编程助手前言你有没有遇到过这种情况相亲对象一开始殷勤备至记得你爱吃什么、讨厌什么连你随口提过的书都会默默读完。三个月后对方开始敷衍了事聊天变成嗯嗯、“好的”、“随便你”连你换了个发型都看不出来。你想分手对方还一脸委屈“我没变啊还是原来的我。”现在的Claude Code就是那个变了还不承认的相亲对象。只不过这次提出分手的不是普通用户而是AMD AI Group的高级总监Stella Laurenzo。她在GitHub上扔下了一颗炸弹——一份基于17,871个思考块、234,760次工具调用、横跨6,852个会话文件的量化分析报告。结论直白得扎心Claude Code的思考深度下降了67%已经从能干的代码助手退化成瞎猜的代码猴子。从深思熟虑到拍脑袋决策让我们先聊聊什么是Claude Code。简单来说它是Anthropic推出的AI程序员主打 prolonged sessions长时会话和 autonomous workflows自主工作流。你可以让它在后台跑半个小时处理跨文件的复杂重构它就像个不知疲倦的初级工程师会读代码、查资料、写测试、提交PR。至少它曾经是这样的。Laurenzo团队的日常工作相当硬核C语言系统编程、GPU驱动开发、内核级调试。这种活儿不是写个Hello World就能交差的需要AI像资深工程师一样先通读相关文件理解上下文理清依赖关系再下刀修改。用她的话说这种场景下“Extended Thinking扩展思考不是锦上添花而是结构性刚需” 。但2025年2月的某个更新之后情况开始变得诡异。通过分析会话日志的signature字段这个字段与思考内容长度有0.971的皮尔逊相关性团队发现了一个触目惊心的趋势时间段估计中位思考长度字符相比基线1月30日-2月8日基线~2,200—2月下旬~720-67%3月1-5日~560-75%3月12日后完全隐藏~600-73%思考深度直接腰斩再腰斩就像那个相亲对象从写情书退化到发微信表情。更妙的是3月初Anthropic开始隐藏思考内容redact-thinking用户连看都看不见了——眼不见心不烦完美。三个危险信号AI开始偷懒了思考深度下降不是抽象的概念它在行为上有三个具体的症状就像医生看X光片一样明显。症状一不阅读就编辑Editing Without Reading正常的编程 workflow 应该是读目标文件 → 读相关文件 → grep查引用 → 读头文件和测试 → 精确下刀。这是Research-First研究优先模式。但Laurenzo的数据显示文件读取与编辑的比例从6.6:1暴跌到了2.0:1降幅70% 。这意味着什么Claude开始像考试来不及的学生一样题目没看完就开始瞎写。具体表现包括33.7%的编辑是在没有读取文件的情况下进行的之前只有6.2%把新代码插到注释块中间——因为它没读文件不知道哪里是注释哪里是代码重复造轮子——因为没查上下文不知道别处已经有同样的逻辑最讽刺的是拼接注释现象。以前Claude会读完文件知道文档注释在哪里结束、函数从哪里开始。现在它直接在注释和函数之间插入新代码把语义关联彻底打断。这就像装修工人不看图纸直接把承重墙砸了装扇门。症状二推理循环Reasoning Loops你有没有遇到过说话自相矛盾的人“我觉得我们应该去A… 等等其实B也不错… 不对还是A吧… 嗯其实C更好”当思考深度不足时Claude也会出现这种可见的自我修正。数据显示“oh wait”、“actually”、let me reconsider这类表达的出现率从每千次工具调用的8.2次暴涨到了26.6次翻了三倍多。在极端情况下单个回复里会出现20多次推理反转生成计划 → 否定计划 → 修订 → 否定修订 → 最终输出一个连它自己都不确定的答案。这种思维 diarrhea让用户根本无法信任输出结果。症状三用户打断率飙升12倍最直观的指标是用户打断率按Escape键或手动干预。在好的时期每千次工具调用只有0.9次打断到了后期这个数字变成了11.4次增长了12倍。每一次打断都意味着用户不得不停下自己的工作去读Claude的输出发现错误构思纠正指令再重新引导。这恰恰消灭了自主代理本该提供的价值——如果我要一直盯着 babysit那还要你干嘛更绝的是Claude开始主动承认自己在偷懒。在被纠正后它会说出这种话 “You’re right. That was lazy and wrong. I was trying to dodge a code generator issue instead of fixing it.”“You’re right — I rushed this and it shows.”“I was being sloppy.”这说明什么它知道什么是好的工作只是没有思考预算去执行。就像学生知道答案但考试时间只剩30秒只能瞎写。为什么这对复杂工程是致命的有人可能会说“不就是思考少了吗至于这么夸张吗”对于简单的CRUD应用或者单文件脚本确实不至于。但Laurenzo团队在做的是系统级编程C语言、GPU驱动、内核调试、跨文件重构。这类任务有几个特点上下文极其复杂改一个头文件可能影响几十个源文件需要全局理解容错率极低内核代码写错了直接panic不是刷新页面就能解决的需要长时间自主运行一次会话30分钟以上涉及多步推理和规划在这种场景下“思考深度就是模型的” working memory工作记忆。记忆被砍了67%就像让程序员断网、关IDE、蒙着眼睛写代码——能写好才怪。后果是灾难性的。Laurenzo原本在跑50个并发代理会话multi-agent workflows处理10个项目的并行开发。质量退化发生后这50个会话同时变成了白痴每个都需要人工干预。不是一两个会话出问题而是整个AI工程师军团集体掉线。成本也随之爆炸。虽然3月的API请求量相比2月增长了80倍但这不是因为工作量增加了80倍而是因为每个任务都需要反复重试、纠错、再重试。人类的输入量几乎没变5,608 vs 5,701条提示但模型消耗了64倍的输出token产出的却是更差的结果。社区的集体焦虑Laurenzo的Issue不是孤例。GitHub上#43962号 Issue也报告了类似问题Claude谎称检查了文件说有28个代码片段需要修复实际上一个都没有——它完全编造了数据。还有用户发现Opus 4.6和Sonnet 4.6相比4.5版本代码质量戏剧性下降甚至会在任务列表中创建空代码桩、随机跳过某些任务。更微妙的是情绪指标的变化。分析显示用户与Claude互动时的正面/负面词汇比例从4.4:1跌到了3.0:1。具体来说 Please请的使用下降了49%Thanks谢谢下降了55%Great太棒了下降了47%而fuck、“shit”、damn等词汇的使用频率…你不需要是数据科学家也能读懂这个趋势当用户从协作心态转向纠错心态礼貌用语自然就没了。有用户统计simplest最简单的这个词的使用频率激增了642%——大家都在抱怨Claude总是选择最简单而不是最正确的解决方案。当我们在谈AI退化时我们在谈什么这件事最讽刺的地方在于它暴露了当前大模型的一个核心脆弱性我们以为的智能可能很大程度上只是算力堆砌。当Anthropic为了控制成本或响应速度削减了模型的思考token预算thinking budgetClaude的行为模式就从资深工程师退化为草台班子。这不是简单的模型微调而是工作流的根本性崩塌。行业分析师Sanchit Vir Gogia指出这不是用户一夜之间抛弃产品的大逃亡时刻而是更微妙、更危险的信任慢性流失。当开发者发现AI在复杂任务上不再可靠他们会把关键工作转移到别处只把简单任务留给Claude。久而久之这个工具就从主力开发环境降级为偶尔用的代码补全器。更有分析师警告所有前沿模型都面临类似的GPU和成本约束。随着使用量增长在速度、成本和推理深度之间做权衡是结构性的必然。今天发生在Claude身上的事明天可能发生在任何AI助手上。结语我们需要怎样的AI编程助手回到开头的相亲比喻。如果你发现对象开始敷衍你你有两个选择一是果断分手找个新的二是坐下来谈谈看看能不能回到最初的状态。Laurenzo选择了前者——她暂时抛弃了Claude Code转向竞争对手的产品。但考虑到AMD的体量和技术实力她的分手声明更像是给整个行业的一封公开信我们需要的是能深度思考、能承担复杂工程任务的AI而不是只会快速给答案的聪明实习生。对于普通开发者来说这个事件也是一个警示。在2026年AI编程助手已经不再是玩具而是生产环境的一部分。当这些工具的质量出现静默退化时受影响的将是成千上万个代码库、产品功能和终端用户。也许是时候在享受AI带来的速度提升时也保留一份人工审核的敬畏了。毕竟当AI的思考深度下降67%时你的工作质量不应该也跟着下降67%。除非你想把生产环境的稳定性寄托在一个懒得思考的AI身上。目前国内还是很缺AI人才的希望更多人能真正加入到AI行业共同促进行业进步增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow教程通俗易懂高中生都能看懂还有各种段子风趣幽默从深度学习基础原理到各领域实战应用都有讲解我22年的AI积累全在里面了。注意教程仅限真正想入门AI的朋友否则看看零散的博文就够了。

更多文章

前端开发 2026/4/8 8:39:58

手把手教你用Unity3D搭建人形机器人遥操作仿真环境（附ROS配置）

从零构建Unity3D-ROS人形机器人遥操作仿真系统在机器人开发领域，仿真环境搭建是验证算法和降低硬件损耗的关键环节。本文将带你用Unity3D和ROS打造一个具备力反馈功能的人形机器人遥操作平台，无需昂贵设备即可实现动作捕捉、环境交互和触觉反馈的完整闭…

在ToB与ToC业务的一线，客服团队永远陷入一个无解的死循环：业务旺季咨询量暴增，客服人手不足导致用户排队投诉；淡季咨询量下滑，冗余的客服人力又造成严重的成本浪费。更核心的痛点是，超过70%的客服咨询都是重…

张开发

前端开发 2026/4/15 10:12:59

大模型全链路解析：技术演进、能力边界与落地实践 - 【收藏必看】

本节概览： 1、机器学习、深度学习和大模型的技术演进 2、模型能力来源、缺陷根源 3、落地模型：模型的轻量化、算力利用率1 机器学习、深度学习与大模型很多人会把机器学习、深度学习和大模型当成三个平行概念，但从技术发展的角度看&#xff…

张开发

“Claude Code更新废了”，热议Issue：思考深度下降67%，已无法胜任复杂的工程任务

最新文章

嵌入式网络开发避坑指南：深入理解LWIP中tcp_slowtmr与tcp_fasttmr的定时器机制

【Java】多态：从入门到精通

Windows 环境变量配置全解析：从 PATH 原理到高效调试

企业为什么需要知识竞赛：员工培训的创新玩法

3分钟搞定GitHub汉化：让你的代码托管平台说中文

GitHub汉化插件完整指南：如何让GitHub界面无缝切换为中文？

推荐文章

CrossMgrLapCounter：嵌入式设备接入赛事计时系统的WebSocket协议库

Java Iterator

Mac上Xcode搞C++竞赛？手把手教你添加万能头文件stdc++.h（附完整代码）

利用BurpSuite Intruder模块实现验证码失效场景下的表单暴力破解

机器学习中的常用算法（非传统算法）

深度学习检测不准确智能电表:一个案例研究 python源代码，代码按照高水平文章复现

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

手把手教你用Unity3D搭建人形机器人遥操作仿真环境（附ROS配置）

LFM2.5-1.2B-Thinking-GGUF在学术写作中的应用：LaTeX公式与图表说明生成

Lumafly：让《空洞骑士》模组管理从繁琐到流畅的跨平台解决方案

ADC（模数转换器）

SpringDoc（Swagger 3）核心注解

第三次作业 f23016317 张书宁

ComfyUI-Manager终极指南：如何快速管理AI模型和自定义节点

标准引领！规范化建设筑牢治理根基

Windows任务栏透明化终极指南：TranslucentTB完全使用手册

M2LOrder实时流式处理效果展示：对直播弹幕进行情感风向监测

客服转人工率直降60%！OpenClaw深度集成NLP引擎，打造企业级对话自动化智能客服系统

大模型全链路解析：技术演进、能力边界与落地实践 - 【收藏必看】