ai的“可用自主空间”其实比我们想的要大

最近 AI 智能体的概念已经开始落地,大家好像都不太清楚实际的用法,Anthropic 放了个报告出来聊聊这事。他们拿 Claude Code 和公共 API 上的海量交互数据做了个分析,搞明白了这东西在干活的时候到底有多自主。结果发现 Claude Code 现在能自己一个劲跑的时间长了不少。拿去年 10 月到今年 1 月来说,那次最长的“turn duration”——就是从开始干到停下的时间——已经从不到 25 分钟翻到了 45 分钟多。虽说平均数还在 45 秒左右晃悠,没怎么大起大落,但这种增长趋势挺稳,说明这不是因为 AI 自己变聪明了,可能是用户更信任它了,或者是任务变难了。 给内部用的系统也挺有意思。在最棘手的任务上,Claude 的成功率翻倍了,平均一个会话里的人工插手次数也从 5.4 次掉到了 3.3 次。这意味着 AI 的“可用自主空间”其实比我们想的要大。老司机们更喜欢直接开全自动,只有在不行的时候才插手;新手用全自动的比例才 20%,用个一年多(750 次以上)的老油条能把比例干到 40%。不过大家打断 AI 的次数也跟着涨了,从 5% 涨到了 9%。公共 API 那边情况差不多:修个单行代码这种简单活,87% 的调用都有人在管;要是干查零日漏洞或者写编译器这种硬核的事,这比例就降到了 67%。 研究还发现,复杂任务步骤多不好管,而且干这事的多半是“老油条”用户。再说了,AI 自己也不喜欢太放飞自我。在处理难题的时候,AI 因为不确定而停下来问人的次数比人打断它还多一倍。这种主动确认的机制是部署系统里很重要的监督手段。在安全方面,公共 API 里的操作大部分风险低、错了还能改回来。软件工程这块占了所有活动的近 50%,医疗、金融和网安那边也开始用了。虽然现在高风险操作不多(5%),但一旦翻车后果严重。 这个报告有局限性,毕竟只能看一家的流量。不过 Anthropic 给开发者、产品经理还有政策制定者提了个醒:得投资监控设施、教会模型识不识数自己不懂的地方、设计让用户能好好盯着它的工具,别太早就定下死规矩咋用。