为了把视觉AI的战略野心变成现实,苹果正把多款全新的设备带进大众视野。据彭博社记者马克·古尔曼透露,他们打算打造三款截然不同的硬件,分别是装了摄像头的AirPods、第一款智能眼镜,还有一个能挂在脖子上的吊坠。这三款产品全得连iPhone才能用,而且各自配备了不同的摄像头。 为了让Siri变得更聪明,这些设备会直接把视觉信息交给Siri来处理。这种基于AI的交互方式被库克CEO多次在财报电话会上强调,已经成了Apple Intelligence里最受欢迎的功能之一。它不光帮用户查资料、看资料变得更快,还能彻底改变大家和屏幕打交道的习惯。 早在iPhone 16上,“视觉智能”就已经开始发力了。用户只要长按相机控制按钮,系统就能立刻认出周围的东西,比如路标、餐厅菜单或者海报上的信息。随着iOS 26系统的到来,这个功能不再局限于拍照,而是能扫描整个屏幕内容。不管你是拍张照片还是截个图,系统都会自动调用AI帮你分析里面的内容。 目前这种能力主要是通过OpenAI的ChatGPT来实现的,或者用谷歌搜索来查找图片来源。不过苹果显然不满足于做个“搬运工”,正在内部投下重金研发自家的视觉模型。 为了构建一个全场景的感知网络,苹果把这三款设备设计得各有侧重。带摄像头的AirPods最早可能在2026年上市,主要用来给AI提供视觉信息而不是拍照录像。而智能眼镜最快要到2027年才能面世,它打算直接跟Meta Ray-Ban的高端产品硬碰硬。这种眼镜没有显示屏,里面藏着一个高分辨率的摄像头负责拍照录像,另一个则是专门给Siri看周围环境的。 吊坠式装置的体积跟AirTag差不多大,可以挂在衣服上或者戴在脖子上。它也有个低分辨率的摄像头负责感知周围环境,并且内置麦克风方便跟Siri说话。苹果打算把它当成iPhone的配件来卖,而不是当成独立产品推市场。 苹果在这上面的布局不仅是硬件的堆砌,更是一套完整的逻辑。他们依靠两大核心技术筑起了壁垒:一个是端侧部署,所有的数据处理和AI计算都在用户的设备上完成;另一个是生态协同,所有新硬件都必须和iPhone深度连接。 这种端侧处理的模式非常有意义。它既保护了用户的隐私安全——像出行轨迹、面部特征这些敏感信息根本传不到云端——又让视觉AI的响应速度更快了。 而且苹果的自研芯片(从M系列到H系列)给了端侧视觉AI强大的算力支撑。即便是吊坠这种轻量化的设备也能轻松完成复杂的识别任务。 生态协同才是苹果最大的竞争力。这三款新硬件会和更智能的Siri形成闭环:用户通过眼镜或吊坠说话就能让Siri听懂;数据会回传到iPhone上进一步处理。 这种循序渐进的做法展现了苹果的长期主义态度。他们并不追求快速迭代而是慢慢打磨技术体系和生态框架。 古尔曼曝光的这三款产品只是冰山一角。未来随着它们的发布,苹果将进一步完善视觉感知的场景覆盖;人机交互也将从单纯的屏幕触摸转向更自然的视觉感知。 目前“视觉智能”已经集成在了iPhone 16的相机按钮里;长按按钮就能迅速识别周围环境并执行操作。iOS 26系统还把它从拍照取景扩展到了整个屏幕内容的处理上。