苹果欲打造视觉ai的战略野心变成现实

为了把视觉AI的战略野心变成现实，苹果正把多款全新的设备带进大众视野。据彭博社记者马克·古尔曼透露，他们打算打造三款截然不同的硬件，分别是装了摄像头的AirPods、第一款智能眼镜，还有一个能挂在脖子上的吊坠。这三款产品全得连iPhone才能用，而且各自配备了不同的摄像头。为了让Siri变得更聪明，这些设备会直接把视觉信息交给Siri来处理。这种基于AI的交互方式被库克CEO多次在财报电话会上强调，已经成了Apple Intelligence里最受欢迎的功能之一。它不光帮用户查资料、看资料变得更快，还能彻底改变大家和屏幕打交道的习惯。早在iPhone 16上，“视觉智能”就已经开始发力了。用户只要长按相机控制按钮，系统就能立刻认出周围的东西，比如路标、餐厅菜单或者海报上的信息。随着iOS 26系统的到来，这个功能不再局限于拍照，而是能扫描整个屏幕内容。不管你是拍张照片还是截个图，系统都会自动调用AI帮你分析里面的内容。目前这种能力主要是通过OpenAI的ChatGPT来实现的，或者用谷歌搜索来查找图片来源。不过苹果显然不满足于做个“搬运工”，正在内部投下重金研发自家的视觉模型。为了构建一个全场景的感知网络，苹果把这三款设备设计得各有侧重。带摄像头的AirPods最早可能在2026年上市，主要用来给AI提供视觉信息而不是拍照录像。而智能眼镜最快要到2027年才能面世，它打算直接跟Meta Ray-Ban的高端产品硬碰硬。这种眼镜没有显示屏，里面藏着一个高分辨率的摄像头负责拍照录像，另一个则是专门给Siri看周围环境的。吊坠式装置的体积跟AirTag差不多大，可以挂在衣服上或者戴在脖子上。它也有个低分辨率的摄像头负责感知周围环境，并且内置麦克风方便跟Siri说话。苹果打算把它当成iPhone的配件来卖，而不是当成独立产品推市场。苹果在这上面的布局不仅是硬件的堆砌，更是一套完整的逻辑。他们依靠两大核心技术筑起了壁垒：一个是端侧部署，所有的数据处理和AI计算都在用户的设备上完成；另一个是生态协同，所有新硬件都必须和iPhone深度连接。这种端侧处理的模式非常有意义。它既保护了用户的隐私安全——像出行轨迹、面部特征这些敏感信息根本传不到云端——又让视觉AI的响应速度更快了。而且苹果的自研芯片（从M系列到H系列）给了端侧视觉AI强大的算力支撑。即便是吊坠这种轻量化的设备也能轻松完成复杂的识别任务。生态协同才是苹果最大的竞争力。这三款新硬件会和更智能的Siri形成闭环：用户通过眼镜或吊坠说话就能让Siri听懂；数据会回传到iPhone上进一步处理。这种循序渐进的做法展现了苹果的长期主义态度。他们并不追求快速迭代而是慢慢打磨技术体系和生态框架。古尔曼曝光的这三款产品只是冰山一角。未来随着它们的发布，苹果将进一步完善视觉感知的场景覆盖；人机交互也将从单纯的屏幕触摸转向更自然的视觉感知。目前“视觉智能”已经集成在了iPhone 16的相机按钮里；长按按钮就能迅速识别周围环境并执行操作。iOS 26系统还把它从拍照取景扩展到了整个屏幕内容的处理上。