ai写的代码越改越烂，最后连维护多年的旧代码都不如

最近，关于AI编程的话题又热了起来。威斯康星麦迪逊大学和MIT的一项研究用了个叫SlopCodeBench的新东西，给现在的AI编程Agent找了个大麻烦。这个评测基准直接戳破了它们的假面具，原来AI写的代码越改越烂，最后连维护多年的旧代码都不如。这一下可让AI编程界的热乎劲儿凉了半截，也让人开始琢磨这门技术到底往哪儿走。以前测AI的编程能力，大家主要看它一次性能搞定多少活儿。但实际上做开发哪有那么简单？SlopCodeBench是专门用来折磨AI的。它模拟了真实开发里那些让人头疼的事儿，比如需求变来变去、功能越改越多。这个测试里有20个常见的开发场景，每个场景又细分成了93个更复杂的小检查点。规则还特别狠：不给你预设内部接口，也不让你看测试用例，你必须得在老代码的基础上接着改。这就逼着AI跟人一样，在信息不全的情况下硬着头皮写代码、维护代码。研究者用了两个词来形容烂代码：结构侵蚀和冗余度。结构侵蚀就是代码逻辑全堆在几个大函数里，看着就头疼。冗余度就是代码里有好多重复没用的东西。测试结果挺扎心的：像ClaudeOpus4.6、GPT5.4、GLM4.7这些现在最牛的模型，在SlopCodeBench上全都表现不咋地。它们的冗余度是人的2.2倍，结构侵蚀也是2.2倍，甚至比scikit-learn和scipy这种本来就很复杂的库还难用。更可怕的是，越往后改质量越差。有个挺有意思的发现是：很多人想靠优化提示词来把AI调教好。研究者试了试所谓的“反slop提示”和“先规划提示”，发现刚开始确实能让代码干净点，可不管怎么优化都没法阻止它变烂。更让人哭笑不得的是，如果给AI一个更干净的基础去干活儿，虽然成本变高了，但通过率反而更低了。这说明AI还是个只顾眼前的小机灵鬼，只顾着满足现在的需求，完全不顾将来能不能维护。说到底，这是思维模式的问题。人写代码会想着以后怎么改方便，AI只知道现在怎么写完就行。未来想要用好AI得有规矩才行：不能把它当主力用，得自己把控架构做审查。虽然现在的AI像个能干的实习生能写点简单东西，但那种需要长期迭代的大项目它肯定搞不定。大家也别老想着AI会抢饭碗了，真正有能力搞设计的人才才是王道。至于以后能不能彻底取代人？我看还早着呢。你觉得呢？