17岁的高中生，把transformer 架构的基础问题给解决了，这事儿把埃隆马斯克都给震

你看了没，中国那边出了个天才少年，17岁的在读高中生陈广宇，居然把Transformer架构里的那个基础问题给解决了，这事儿把埃隆·马斯克都给震住了，直接发推点赞说Kimi的工作太让人印象深刻了。这小子现在在南京那边读书，其实我前阵子还看他在美国拿过美国计算机奥林匹克竞赛的铂金组名次，还在Kimi内部拿下了48小时黑客马拉松冠军。他是靠自学经典论文、盯开源项目起步的，后来在社交平台分享技术才被硅谷一家AI公司看上，去年11月就正式加入Kimi团队实习了。这次他跟张宇、苏剑林一起做了篇论文，名字叫“注意力残差”，就是想优化大模型里信息传递的那个固定方式。以前那种残差连接层数一多，关键信息容易被稀释，Kimi团队提出的新方法让当前层能主动去挑前面层里更重要的信息，而不是一股脑全传下去。这对提升大模型能力来说，算是除了堆参数和算力之外的一条新路子。这篇论文里，除了陈广宇是深圳国际学校的高三学生外，张宇是Kimi高效模型架构的研究者，苏剑林更是大模型旋转位置编码RoPE方法的提出者。他们仨被列为同等贡献作者，陈广宇一直强调这是团队的成果。你说他厉害吧？之前还入选过罗德信托那个高潜力未来领袖计划，还在美国顶尖的小型实验室Tilde Research做过研究呢。虽然17岁就成了顶尖独角兽Kimi核心架构论文的第一作者这种事在硅谷挺少见的，但宋世锋记者也说这成绩离不开团队里每一位成员的付出。所以这也给咱们中国高中生长脸了啊！