vivo 总裁胡柏山：把影像和ai 结合起来，能把智能未来给重塑成啥样

博鳌亚洲论坛开幕了，vivo总裁在会上给大家揭开了个秘密：把影像和AI结合起来，能把智能未来给重塑成啥样。差评君最近是收到了vivo的邀请，去了一趟海南博鳌。这是差评君头一回参加这种国际盛会，大家对里面聊的科技话题都特别上心。博鳌论坛是亚洲很重要的政商交流平台，每年都围绕全球经济问题和科技走向搞点新话题。vivo这几年也没落下，每次都来这儿秀自家的创新玩意儿。今年论坛上，vivo总裁胡柏山讲的话引起了很多人讨论。他说了，AI要真走进现实生活，得有主动看明白周围环境的本事，而影像技术就是帮它建这个看明白的能力的基础。这话说得跟去年vivo展示的MR头显、6G技术还有机器人布局是一个路子，说明vivo在“影像+AI”这块下的功夫可深了。说到把AI用到哪去落地的载体上，胡柏山觉得还是得靠智能手机。虽说现在做AI的硬件挺多，但手机的普及度和把各种东西连起来用的优势太大了，没人能比。因为处理器算力有限，vivo就决定先做好端侧的AI，通过让程序在本地跑得更顺溜来给用户提体验。关于隐私这事儿，公司的主张很明确，数据主权得交给用户自己攥着。数据就在本地处理的话，泄露的风险就能降到最低。至于AI怎么跟影像混在一起用，vivo有自己的一套技术哲学。以前那种让人帮忙标注数据来训练AI的法子虽然自动化了不少，但脑袋里还缺一根弦——能看懂画面里的内容就行，但没法搞懂物体怎么动、物体之间是啥关系。就拿桌子上的杯子来说吧，现在的AI能认出它是个杯子搁在桌面上；可要是杯子不小心歪了呢？它完全不知道这杯子可能会倒的物理状态。为了补上这个认知的缺口，行业里就开始琢磨什么叫空间智能了。这时候vivo就看上了影像这块突破口。它有个特殊的本事就是采集数据——不只是眼睛看的视觉信息，还有能理解的语义信息。手机拍照这些年攒下的光线计算、场景识别本事，全给AI感知能力当素材用了。拿vivo X300系列举个例子，里面那个影像Agent能自动推荐该怎么拍照片，就是因为它对要拍的东西还有周围的光线特别懂。另一个拦路虎就是现实数据不够多。实验室里的训练数据有灯光固定、穿着也特别的毛病；反倒是手机里拍下的日常生活场景更实在。清晨的阳光、家里宠物的小动作这种真家伙，能帮AI建出更细的生活认知模型。而且在手机本地运行的特点也让用户不用太担心泄露隐私。胡柏山想象的未来是这样的：影像成了能感知很多东西的智能感官。AI不光得知道“这是只猫”，还得能看出猫跳多高、会不会打翻杯子还有猫的心情咋样。有了这种主动感知的本事，手机就能变成个智能小助手了——在超市看到优惠信息自动推送、开会的时候把纪要给生成出来；这些都得靠影像实时去看周围的环境才行。 vivo的生态布局也是围着感知能力转的。手机要变成智能体设备；MR头显也开始搞商业化；家用机器人先盯着家里的场景干起来。负责机器人的LAB团队说了，刚开始会挑点简单的活儿干，比如给宠物喂饭、把衣服叠好这些事儿先干着。他们觉得大模型最后都要变得差不多；能赢过别人的就是自己的场景数据；就像特斯拉的FSD（自动驾驶系统）厉害在它有自己独一份的数据一样。在这次AI大变局里，vivo选择从影像这块长板切入很有特色。通过搞手机-MR头显-机器人这一套产品组合；想用“沿途下蛋”的招数不断输出技术成果；这种走法既发挥了现有的优势；又把AI感知能力的从设备到生态的链条给搭起来了；算是给智能设备理解物理世界提供了一个新思路。