2月22日,Anthropic这个公司把软件工程占 AI 智能体调用量的比例给我们挖出来了,差不多是五成呢!而且这东西在各行各业里的普及率可是极低,所以咱们对它在真实世界里到底怎么用,心里头其实也没底。就在2月18日的时候,Anthropic发了个大招,弄了一份详细的行为实测报告。这报告可是通过分析Claude Code还有公共 API 上面几百万次的人机对话得出来的,保密性做得挺足。他们把智能体在实际工作中到底有多自主、哪儿有风险、怎么监管这些事儿都给咱们摊开了说。 研究团队发现,Claude Code自己干活的时间变长了,最长能连干三个月了,以前可没这么猛。2025年10月到2026年1月这段时间里,“turn duration”(也就是从开始干活到停下的时间)第99.9百分位的那一段,直接从25分钟飙到了45分钟以上。不过呢,中间的那个时间还是维持在45秒左右,波动不大。说明这能力增长得挺稳定,不一定是光靠升级模型干的,可能也是因为大伙儿对它越来越信得过了。 他们内部的数据也挺有意思。在2025年8月到12月这段时间里,Claude Code处理那些最硬的活时,成功率翻了一倍多。而且平均每个会话里头让我们自己动手帮忙的次数也少了,从5.4次降到了3.3次。这说明它在实际工作中能自己搞定的事儿比我们想的要多得多。说白了就是老手们更喜欢用“全自动模式”,让Claude自己跑,我们只要在旁边看着就行。 但是新用户就不一样了,用不到50次的人只有20%会开全自动;等到用了750次以后这比例能到40%以上。还有中途打断它的比例也从5%升到了9%。Anthropic在公共API上看到的情况也差不多。对付简单任务比如改一行代码时,差不多87%的操作都得咱们亲自下场;但如果是找零日漏洞或者写编译器这种复杂任务,这比例就能降到67%。 为啥会这样呢?一方面是因为步骤太多不太好审批;另一方面可能还是“老油条”用户太多。模型自己也不想太嚣张,复杂任务里它停下来问咱们问题的次数比咱们打断它的次数还要多一倍以上。高难度场景下它主动提问的次数也比咱们主动打扰要多。看来智能体主动确认问题也是个重要的监督手段。 在风险这块儿看下来,大多数通过公共API做的操作风险不高也容易挽回。软件工程占了所有活动的快50%,医疗、金融和网络安全这些领域也慢慢冒头了。虽然现在高风险操作比例小得可怜,但要是出了岔子那可是天大的事儿。 不过呢,这报告也有局限性。它只能看一家公司的数据,对公共API的会话细节看得也不是特别透彻。基于这些发现,Anthropic给开发者、产品经理还有政策制定者提了几个建议:投资监控基础设施、教会模型认识自己不知道的地方、设计能让咱们更好监督的工具,还有别太早定死交互模式。这个信息来自于IT之家。