互联网巨头正在激烈角逐大模型,面壁智能创始人李大海却不觉得生存空间受到挤压,反倒对未来充满乐观。他认为AI就是一次产业级革命,创业公司肯定能抓住大量机会。“全模态模型加上端侧硬件”,这究竟是不是个好策略?面壁智能正试图借此推动大模型从云端走向终端。2月4日,面壁智能发布了新一代全模态模型MiniCPM-o 4.5,还推出了首款硬件产品松果派(Pinea Pi),计划今年量产上市。MiniCPM-o 4.5是个9B参数的全模态大模型,支持视频、音频和文本流输入,也能连续输出文本和语音。它被称作全双工全模态模型,既能一边说话一边听,还能在不耽误说话的情况下实时调整回应策略。比如,它能一边回答问题一边听周围动静,甚至公交车到站或者红绿灯变了它也能提醒你。面壁智能多模态首席科学家姚远表示,比起以前用语音活动检测(VAD)这类工程手段实现的双工方案,这种技术更接近AI原生。 姚远把全模态模型看作潜在的“具身大脑”。他认为9B参数的模型规模可控,适合在机器人、车载系统、PC 等终端侧运行。现在行业研发主要集中在运控系统和视觉-语言-动作(VLA)模型上,在理解和沟通方面还有欠缺。面壁团队觉得这种能持续感知的模型形态能补上这一块短板。 这次发布的松果派是面壁首款面向开发者的端侧AI硬件产品。它基于NVIDIA Jetson模组打造,集成了麦克风、摄像头和各种接口。姚远说松果派主要是为了教育市场而推出的教育产品,并不是最终形态。这个开发板支持离线多模态个人知识助理、具身智能原型还有编程教学等场景。定位AI原生端侧开发套件的原因在于强调用自然语言直接控制硬件行为降低开发门槛。 MiniCPM-V和MiniCPM-o系列模型可以“开箱即用”,支持离线运行避免持续token成本从而提升数据安全性和稳定性。松果派预计今年年中进入量产阶段价格尚未公布。 面对云端模型的激烈竞争,面壁智能想为端侧模型闯出一条路来。但团队对当前AI硬件和终端形态的看法比较克制。李大海指出豆包手机、千问这些应用出来后大家都意识到新一代AI人机交互形态已经出现了方向但离成熟还远着呢。他把这个过程比作从功能机到智能机的进化——方向明确但不会一下子完成。 即便现在用行业最领先的云端模型去处理复杂任务成功率也没达到完全可用的水平。纯云端方案很难成为最终形态一方面复杂场景需要实时性和稳定性另一方面用户隐私也限制了它的使用范围。李大海觉得未来更可行的是端侧模型和云端模型协同工作来平衡能力体验还有隐私这是一个从软件到硬件的全产业链任务面壁智能不仅要把模型能力延伸到手机、汽车等终端还要加紧跟芯片厂商合作突破硬件限制。 数据方面姚远认为多模态领域还没到数据用尽的地步互联网上视频和音频数据规模还在快速增长但真正被有效训练的比例有限问题不在于数据总量而在于怎么把它们转化为可泛化的能力。 关于技术架构姚远不太乐观他觉得目前多模态模型在理解和生成底层还是割裂的视觉理解多靠连续表征而生成任务用的是扩散模型这不是一条路走到底的方法这导致了模型在理解和生成之间泛化能力差不符合通用人工智能的长期设想。 行业现在正在探索用自回归这种统一方式把不同模态纳入一个架构实现理解生成统一但这个方向也面临现实挑战尤其是视觉和音频这类高连续模态被离散化后像OCR这种任务损失很大在算力和数据规模一样的情况下统一架构暂时还比不上特异模型的最佳表现。 尽管如此面壁智能还是要趟出一条路来他们的MiniCPM系列就是这么做的MiniCPM-o支持全双工能力能够持续接收多模态输入并且实时调整回应策略MiniCPM-V则专注于视觉领域和MiniCPM-o一起构成完整的全模态能力套件这些都为端侧应用奠定了基础。 对李大海来说AI就是一个产业级机会他不觉得行业内的竞争会挤压生存空间反而觉得是个好机会公司要根据自己的策略选择是在广阔市场占小部分份额还是在更聚焦的场景里当老大。 2月4日那天面壁智能就展示了他们的策略发布了新一代全模态模型MiniCPM-o 4.5还有首款硬件产品松果派他们打算把大模型的能力延伸到终端设备上去。 李大海对未来充满信心他觉得AI本身就是第四次技术革命创业公司肯定有很多机会只要策略对路就能找到自己的位置。 这次发布的松果派是基于NVIDIA Jetson系列模组打造的它集成了麦克风摄像头和各种接口支持离线多模态个人知识助理、具身智能原型还有编程教学等场景这个产品的出现说明面壁智能正在努力把模型能力和硬件结合起来为开发者提供更方便的工具。 姚远作为首席科学家对技术发展有着自己的看法他认为多模态模型的上限还有很大的探索空间但在算法架构上要想快速收敛并不容易现在多模态模型在理解和生成底层还是割裂的视觉理解多靠连续表征而生成任务用的是扩散模型这导致了模型在理解和生成之间泛化能力差不符合通用人工智能的长期设想行业正在探索通过自回归等统一建模方式把不同模态纳入同一架构之下以实现理解与生成的统一但这一方向仍面临现实挑战尤其是在视觉与音频等高连续模态被离散化后信息损失在OCR、细粒度文字等任务上尤为明显在算力和数据规模相同的条件下统一架构目前仍难以全面超越模态特异模型的最优性能。 在数据层面姚远认为多模态领域尚未进入数据耗尽阶段与文本数据不同互联网上的视频和音频数据规模仍在高速增长但当前真正被有效用于训练的比例仍然有限问题的关键不在于数据总量而在于是否具备合理的学习机制将这些数据转化为可泛化的能力。 尽管面对云端模型“神仙打架”面壁智能想为端侧模型趟出一条前景远大的路但在应用与产业层面团队对当前AI硬件与终端形态的判断相对克制李大海表示随着豆包手机、千问等应用出现行业已经形成共识:新一代以AI为核心的人机交互形态已经显现方向但距离真正成熟仍有较长距离李大海将这一变化类比为从功能机向智能机的演进过程——方向明确但不会一蹴而就而是伴随着云端模型与端侧模型能力的持续提升而逐步展开即便在当前阶段即使采用行业内最领先的云端模型其对复杂任务的完成率仍未达到完全可用的水平在此背景下李大海认为纯云端方案难以成为最终形态一方面复杂交互场景对实时性与稳定性提出更高要求另一方面用户隐私与数据安全也限制了云端模型在终端场景中的使用边界他认为未来更可行的路径是端侧模型与云端模型的协同工作在能力、体验与隐私之间取得平衡——这是一个从软件到硬件的全产业链任务面壁智能除了将