kimi 团队搞出了个大新闻,他的成功也给我们提了个醒:年轻人的技术潜力真的很大啊!

最近中国人工智能公司“月之暗面”的Kimi团队搞出了个大新闻。3月16号,埃隆·马斯克在网上给他们点了个赞,夸得特别好。这就引起了大家的注意,特别是大家发现论文里居然有个17岁的高中生叫陈广宇。这哥们儿现在还在深圳上高中呢,听说他参与了研究,挺让人意外的。陈广宇接受采访时也挺谦虚的,说大家多关注团队努力就行了。论文附录里也写着,他和张宇还有苏剑林都被标注为“同等贡献”,说明合作很重要。 他们这研究主要是盯着AI底层的机制呢。自打2017年Transformer架构出来以后,生成式AI发展得可快了。不过以前的模型有个问题,就是层和层之间的信息传递不好办,传统的“残差连接”在层数多的时候容易把前面重要的信息给稀释了。Kimi团队这次就提出了个新办法叫“注意力残差”,也就是“Attention Residuals”。这个方法就不傻呵呵地把所有前面层的信息都接收了,而是根据当下需要,挑着有用的部分来调取。 他们在KimiLinear48B模型上验证了一下效果,结果发现训练计算量减少了差不多20%,相当于效率提高了1.25倍。推理延迟虽然增加了不到2%,但整体表现还是很不错的。这说明主流大模型在信息传递这块还有得优化。陈广宇接触AI也就大半年时间吧,平时就在GitHub上看开源项目或者读论文来补课。去年夏天他还在旧金山实习了7周呢,回国后就加入了Kimi团队。 论文发出来后,陈广宇还特意在网上发文强调团队协作有多重要。他的成功也给我们提了个醒:年轻人的技术潜力真的很大啊!