杨植麟：中国搞ai的路子越来越受关注了

最近，月之暗面公司的杨植麟在清华大学搞了个AGI-Next的峰会，给大家讲讲他们是怎么搞AI的。他说，中国搞AI的路子越来越受关注了。从2019年开始，全球的大模型发展都得遵循“Scaling Law”，就是靠多攒数据、多堆算力、多搞参数来提升性能。这东西主要靠Transformer这个架构撑着。跟之前的LSTM比，Transformer处理长文本和复杂逻辑特别溜，能把信息理得特别清楚。杨植麟说他们公司就在这上头下功夫，目标是让模型学得快、记得久。他们弄出了个叫“MUON”的二阶优化器，比用了十年的Adam优化器快了好多倍。有了这个优化器，数据少了也能学的跟以前一样好。还有个“Kimi Linear”架构，专门治老模型在处理长文本时容易忘事、逻辑乱的毛病。试下来发现，这个架构处理百万字级的文本比传统方案快6到10倍，逻辑还不乱。为了不让参数太大导致训练崩了，他们还搞了个动态QK-clip技术。这就把那些万亿参数级的Kimi K2给稳住了。Kimi K2是国内第一个能当“智能体”（Agent）的模型，能自己调用工具干好几百步的活儿，像编程、数学题都能搞定。在权威的HLE测试里拿到了45%的准确率，比国外同行还强。现在国外有些开源社区都拿中国的模型当标准了，杨植麟说这说明咱们不光要会用技术，还要参与定规矩。资本方面他们也挺猛，刚拿了5亿美元的C轮融资，账上的现金都超过100亿元了。用户数量也在涨，全球付费用户数的增速冲到了170%，API接口的收入更是涨了4倍。杨植麟还给大家画了个大饼，说下一代模型要搞个叫“Kimi Delta Attention”的新型注意力机制，以后的AI不光要聪明强大，还要懂审美、懂价值观。关于安全伦理问题他也说了自己的看法：技术有风险但不能因为怕出事就不干了。他说以后还会接着推出K4、K5甚至K100系列的模型。这就看出咱们中国AI从抄作业变成自己发明规则了。大家以后怎么搞创新、管安全？这是个大问题。月之暗面这种长期迭代的路数和想定规矩的心思，给咱们的AI未来指了条明路。