今年我国一家科技公司叫阶跃星辰,他们在2024年要给全球开源社区发布一款全新的大模型。这个模型叫Step 3.5 Flash,它是专门用来做智能体的。以前大模型计算起来太费资源了,现在这家公司在技术上有了突破。他们在推理的时候,每个单词只激活大约110亿参数,只占总参数1960亿的5.6%。这样一来,既保持了模型的容量又把计算消耗给降低了。这个模型还能用多令牌预测技术,一次能预测三个单词。做代码生成这些任务时,速度最高可以到每秒350个单词,比原来快多了。 对于长文章的处理,这个模型用了滑动窗口和全局注意力结合的方法。这样就能让它在处理256K字符的长文本时聚焦关键信息,把计算复杂度降低约60%。这对文档分析和代码审查这类需要处理大量信息的工作特别有用。测试数据显示,这个模型在执行任务和解决复杂问题上的表现,已经接近国际主流的闭源大模型了。特别是在多步推理、调用工具和环境交互这些方面都表现得不错。 专家们觉得开源大模型的不断更新对咱们国家的人工智能产业有好处。它能降低企业用技术的门槛,还能促进学校和企业一起搞创新。现在我国的AI产业正处于关键阶段,高效的基础模型能给下游的应用提供支撑。阶跃星辰发布了Step 3.5 Flash后,马上就开始研发下一代Step 4模型了。他们计划在推理精度、多模态理解和安全伦理方面全面提升这款新模型,预计到2024年下半年就能进入测试阶段了。 随着技术生态越来越好和应用场景越来越多,咱们国家的AI产业正朝着更自主可控的方向前进。未来基础技术和产业应用结合得越深,数字经济发展就会越有动力。