ai的“可用自主空间”其实比我们想的要大

最近 AI 智能体的概念已经开始落地，大家好像都不太清楚实际的用法，Anthropic 放了个报告出来聊聊这事。他们拿 Claude Code 和公共 API 上的海量交互数据做了个分析，搞明白了这东西在干活的时候到底有多自主。结果发现 Claude Code 现在能自己一个劲跑的时间长了不少。拿去年 10 月到今年 1 月来说，那次最长的“turn duration”——就是从开始干到停下的时间——已经从不到 25 分钟翻到了 45 分钟多。虽说平均数还在 45 秒左右晃悠，没怎么大起大落，但这种增长趋势挺稳，说明这不是因为 AI 自己变聪明了，可能是用户更信任它了，或者是任务变难了。给内部用的系统也挺有意思。在最棘手的任务上，Claude 的成功率翻倍了，平均一个会话里的人工插手次数也从 5.4 次掉到了 3.3 次。这意味着 AI 的“可用自主空间”其实比我们想的要大。老司机们更喜欢直接开全自动，只有在不行的时候才插手；新手用全自动的比例才 20%，用个一年多（750 次以上）的老油条能把比例干到 40%。不过大家打断 AI 的次数也跟着涨了，从 5% 涨到了 9%。公共 API 那边情况差不多：修个单行代码这种简单活，87% 的调用都有人在管；要是干查零日漏洞或者写编译器这种硬核的事，这比例就降到了 67%。研究还发现，复杂任务步骤多不好管，而且干这事的多半是“老油条”用户。再说了，AI 自己也不喜欢太放飞自我。在处理难题的时候，AI 因为不确定而停下来问人的次数比人打断它还多一倍。这种主动确认的机制是部署系统里很重要的监督手段。在安全方面，公共 API 里的操作大部分风险低、错了还能改回来。软件工程这块占了所有活动的近 50%，医疗、金融和网安那边也开始用了。虽然现在高风险操作不多（5%），但一旦翻车后果严重。这个报告有局限性，毕竟只能看一家的流量。不过 Anthropic 给开发者、产品经理还有政策制定者提了个醒：得投资监控设施、教会模型识不识数自己不懂的地方、设计让用户能好好盯着它的工具，别太早就定下死规矩咋用。