最近,关于AI编程的话题又热了起来。威斯康星麦迪逊大学和MIT的一项研究用了个叫SlopCodeBench的新东西,给现在的AI编程Agent找了个大麻烦。这个评测基准直接戳破了它们的假面具,原来AI写的代码越改越烂,最后连维护多年的旧代码都不如。这一下可让AI编程界的热乎劲儿凉了半截,也让人开始琢磨这门技术到底往哪儿走。以前测AI的编程能力,大家主要看它一次性能搞定多少活儿。但实际上做开发哪有那么简单?SlopCodeBench是专门用来折磨AI的。它模拟了真实开发里那些让人头疼的事儿,比如需求变来变去、功能越改越多。这个测试里有20个常见的开发场景,每个场景又细分成了93个更复杂的小检查点。规则还特别狠:不给你预设内部接口,也不让你看测试用例,你必须得在老代码的基础上接着改。这就逼着AI跟人一样,在信息不全的情况下硬着头皮写代码、维护代码。 研究者用了两个词来形容烂代码:结构侵蚀和冗余度。结构侵蚀就是代码逻辑全堆在几个大函数里,看着就头疼。冗余度就是代码里有好多重复没用的东西。测试结果挺扎心的:像ClaudeOpus4.6、GPT5.4、GLM4.7这些现在最牛的模型,在SlopCodeBench上全都表现不咋地。它们的冗余度是人的2.2倍,结构侵蚀也是2.2倍,甚至比scikit-learn和scipy这种本来就很复杂的库还难用。更可怕的是,越往后改质量越差。 有个挺有意思的发现是:很多人想靠优化提示词来把AI调教好。研究者试了试所谓的“反slop提示”和“先规划提示”,发现刚开始确实能让代码干净点,可不管怎么优化都没法阻止它变烂。更让人哭笑不得的是,如果给AI一个更干净的基础去干活儿,虽然成本变高了,但通过率反而更低了。这说明AI还是个只顾眼前的小机灵鬼,只顾着满足现在的需求,完全不顾将来能不能维护。 说到底,这是思维模式的问题。人写代码会想着以后怎么改方便,AI只知道现在怎么写完就行。未来想要用好AI得有规矩才行:不能把它当主力用,得自己把控架构做审查。虽然现在的AI像个能干的实习生能写点简单东西,但那种需要长期迭代的大项目它肯定搞不定。大家也别老想着AI会抢饭碗了,真正有能力搞设计的人才才是王道。至于以后能不能彻底取代人?我看还早着呢。你觉得呢?