博鳌亚洲论坛开幕了,vivo总裁在会上给大家揭开了个秘密:把影像和AI结合起来,能把智能未来给重塑成啥样。差评君最近是收到了vivo的邀请,去了一趟海南博鳌。这是差评君头一回参加这种国际盛会,大家对里面聊的科技话题都特别上心。 博鳌论坛是亚洲很重要的政商交流平台,每年都围绕全球经济问题和科技走向搞点新话题。vivo这几年也没落下,每次都来这儿秀自家的创新玩意儿。今年论坛上,vivo总裁胡柏山讲的话引起了很多人讨论。他说了,AI要真走进现实生活,得有主动看明白周围环境的本事,而影像技术就是帮它建这个看明白的能力的基础。 这话说得跟去年vivo展示的MR头显、6G技术还有机器人布局是一个路子,说明vivo在“影像+AI”这块下的功夫可深了。说到把AI用到哪去落地的载体上,胡柏山觉得还是得靠智能手机。虽说现在做AI的硬件挺多,但手机的普及度和把各种东西连起来用的优势太大了,没人能比。 因为处理器算力有限,vivo就决定先做好端侧的AI,通过让程序在本地跑得更顺溜来给用户提体验。关于隐私这事儿,公司的主张很明确,数据主权得交给用户自己攥着。数据就在本地处理的话,泄露的风险就能降到最低。 至于AI怎么跟影像混在一起用,vivo有自己的一套技术哲学。以前那种让人帮忙标注数据来训练AI的法子虽然自动化了不少,但脑袋里还缺一根弦——能看懂画面里的内容就行,但没法搞懂物体怎么动、物体之间是啥关系。 就拿桌子上的杯子来说吧,现在的AI能认出它是个杯子搁在桌面上;可要是杯子不小心歪了呢?它完全不知道这杯子可能会倒的物理状态。为了补上这个认知的缺口,行业里就开始琢磨什么叫空间智能了。 这时候vivo就看上了影像这块突破口。它有个特殊的本事就是采集数据——不只是眼睛看的视觉信息,还有能理解的语义信息。手机拍照这些年攒下的光线计算、场景识别本事,全给AI感知能力当素材用了。 拿vivo X300系列举个例子,里面那个影像Agent能自动推荐该怎么拍照片,就是因为它对要拍的东西还有周围的光线特别懂。 另一个拦路虎就是现实数据不够多。实验室里的训练数据有灯光固定、穿着也特别的毛病;反倒是手机里拍下的日常生活场景更实在。清晨的阳光、家里宠物的小动作这种真家伙,能帮AI建出更细的生活认知模型。 而且在手机本地运行的特点也让用户不用太担心泄露隐私。胡柏山想象的未来是这样的:影像成了能感知很多东西的智能感官。AI不光得知道“这是只猫”,还得能看出猫跳多高、会不会打翻杯子还有猫的心情咋样。 有了这种主动感知的本事,手机就能变成个智能小助手了——在超市看到优惠信息自动推送、开会的时候把纪要给生成出来;这些都得靠影像实时去看周围的环境才行。 vivo的生态布局也是围着感知能力转的。手机要变成智能体设备;MR头显也开始搞商业化;家用机器人先盯着家里的场景干起来。负责机器人的LAB团队说了,刚开始会挑点简单的活儿干,比如给宠物喂饭、把衣服叠好这些事儿先干着。 他们觉得大模型最后都要变得差不多;能赢过别人的就是自己的场景数据;就像特斯拉的FSD(自动驾驶系统)厉害在它有自己独一份的数据一样。 在这次AI大变局里,vivo选择从影像这块长板切入很有特色。通过搞手机-MR头显-机器人这一套产品组合;想用“沿途下蛋”的招数不断输出技术成果;这种走法既发挥了现有的优势;又把AI感知能力的从设备到生态的链条给搭起来了;算是给智能设备理解物理世界提供了一个新思路。