微软这次是真给力,给大家整了个能自主思考的大杀器,就是Phi-4-Reasoning-Vision-15B模型。你看这个名字就知道,它不光能看图,还能深度思考,这在IT圈可算是突破了传统AI那种被动看图的老路。咱们之前用的视觉模型大多就是帮着识别图里有啥东西,到了这Phi-4-Reasoning-Vision-15B这儿,就变成了真正的智能切换,既能看清图像,又能深度思考。这对咱们搞GUI自动化和图表分析特别有用,能让AI真正看懂屏幕上的内容,执行那些精准的交互动作。 IT之家那边也报道了,微软在开发者社区发了个帖。这次发布的Phi-4-Reasoning-Vision-15B是个视觉推理模型,它结合了高分辨率的视觉感知能力,再加上任务感知的推理功能。这么一来,它就成了Phi-4系列里第一个既能看得清又想得深的小语言模型(SLM)。传统的那些视觉模型基本就干个识别图里有什么的活儿,而这个新模型更牛,它能进行结构化、多步骤的推理。你可以把它想象成一个聪明的人,它不光能理解图里的结构,还会把这些信息和上下文的文字联系起来,最后得出一个能操作的结论。 这就意味着开发者能用上它来搞图表分析或者是GUI自动化之类的智能应用了。这个模型最厉害的地方就是那个混合推理行为。它能根据提示自己决定是用推理模式还是非推理模式来干活:如果遇到那种需要费脑筋的数学题或者逻辑分析问题时,它就启动多步推理链;要是任务比较简单快速感知一下就够了,比如做OCR或者找个元素的位置时,它就直接输出结果,这样就不会浪费时间降低延迟了。 以后用这个模型配个计算机智能体那是相当的顺手。你把一张屏幕截图发给它,再给个自然语言指令,它马上就能算出目标UI元素的标准坐标框框。旁边的智能体拿到这个坐标数据就能立马执行点击、滚动这些动作了。