杨植麟:中国搞ai的路子越来越受关注了

最近,月之暗面公司的杨植麟在清华大学搞了个AGI-Next的峰会,给大家讲讲他们是怎么搞AI的。他说,中国搞AI的路子越来越受关注了。从2019年开始,全球的大模型发展都得遵循“Scaling Law”,就是靠多攒数据、多堆算力、多搞参数来提升性能。这东西主要靠Transformer这个架构撑着。跟之前的LSTM比,Transformer处理长文本和复杂逻辑特别溜,能把信息理得特别清楚。 杨植麟说他们公司就在这上头下功夫,目标是让模型学得快、记得久。他们弄出了个叫“MUON”的二阶优化器,比用了十年的Adam优化器快了好多倍。有了这个优化器,数据少了也能学的跟以前一样好。还有个“Kimi Linear”架构,专门治老模型在处理长文本时容易忘事、逻辑乱的毛病。试下来发现,这个架构处理百万字级的文本比传统方案快6到10倍,逻辑还不乱。 为了不让参数太大导致训练崩了,他们还搞了个动态QK-clip技术。这就把那些万亿参数级的Kimi K2给稳住了。Kimi K2是国内第一个能当“智能体”(Agent)的模型,能自己调用工具干好几百步的活儿,像编程、数学题都能搞定。在权威的HLE测试里拿到了45%的准确率,比国外同行还强。 现在国外有些开源社区都拿中国的模型当标准了,杨植麟说这说明咱们不光要会用技术,还要参与定规矩。资本方面他们也挺猛,刚拿了5亿美元的C轮融资,账上的现金都超过100亿元了。用户数量也在涨,全球付费用户数的增速冲到了170%,API接口的收入更是涨了4倍。 杨植麟还给大家画了个大饼,说下一代模型要搞个叫“Kimi Delta Attention”的新型注意力机制,以后的AI不光要聪明强大,还要懂审美、懂价值观。关于安全伦理问题他也说了自己的看法:技术有风险但不能因为怕出事就不干了。他说以后还会接着推出K4、K5甚至K100系列的模型。 这就看出咱们中国AI从抄作业变成自己发明规则了。大家以后怎么搞创新、管安全?这是个大问题。月之暗面这种长期迭代的路数和想定规矩的心思,给咱们的AI未来指了条明路。