Anthropic的最新报告显示,AI智能体的实际应用场景里,软件工程相关活动占据了几乎50%,而像医疗、金融和网络安全这类垂直领域的渗透程度还很低。这篇由AI智能生成的IT之家文章,记录了AI智能体从概念走向现实的过程。Claude Code在自主工作时长上取得了显著进步,连续运行的最长时间在三个月内几乎翻倍,从不足25分钟延长到了超过45分钟。用户在使用次数达到750次以上时,启用“全自动模式”的比例超过了40%,而新用户中仅有约20%的人使用该模式。尽管模型主动暂停的次数是人类打断次数的两倍多,但这也说明智能体有自我监督的能力。 对于低复杂度任务,比如修改单行代码,约87%的操作都有人类参与;而在高复杂度任务上,这个比例降到了67%。研究认为这是因为复杂任务的步骤多,难以实现逐步审批,也可能因为老用户更喜欢尝试挑战。另一方面,模型本身也在限制自主性。在处理最棘手的问题时,Claude Code的成功率翻倍增长,平均每次会话中的人工干预次数也从5.4次下降到了3.3次。 数据显示,当用户中途打断模型执行时的比例从约5%上升到了约9%。内部使用数据也显示了相同的趋势:老用户更倾向于让Claude自主运行,仅在需要时才介入。这些发现让Anthropic给开发者和政策制定者提出了建议:要投资监控基础设施、训练模型识别不确定性、设计支持有效监督的交互工具,并避免过早规定交互模式。 虽然大多数通过公共API执行的操作风险较低且可逆,但软件工程占所有智能体活动的近五成。研究团队通过对Claude Code及公共API上数百万次人机交互进行分析揭示了自主程度、风险分布与监督模式的情况。他们还指出了局限性,比如只能分析单一模型提供商的流量以及对公共API的会话行为缺乏完整可见性。