微软发布phi-4-reasoning vision-15b 视觉推理模型

微软这次是真给力，给大家整了个能自主思考的大杀器，就是Phi-4-Reasoning-Vision-15B模型。你看这个名字就知道，它不光能看图，还能深度思考，这在IT圈可算是突破了传统AI那种被动看图的老路。咱们之前用的视觉模型大多就是帮着识别图里有啥东西，到了这Phi-4-Reasoning-Vision-15B这儿，就变成了真正的智能切换，既能看清图像，又能深度思考。这对咱们搞GUI自动化和图表分析特别有用，能让AI真正看懂屏幕上的内容，执行那些精准的交互动作。 IT之家那边也报道了，微软在开发者社区发了个帖。这次发布的Phi-4-Reasoning-Vision-15B是个视觉推理模型，它结合了高分辨率的视觉感知能力，再加上任务感知的推理功能。这么一来，它就成了Phi-4系列里第一个既能看得清又想得深的小语言模型（SLM）。传统的那些视觉模型基本就干个识别图里有什么的活儿，而这个新模型更牛，它能进行结构化、多步骤的推理。你可以把它想象成一个聪明的人，它不光能理解图里的结构，还会把这些信息和上下文的文字联系起来，最后得出一个能操作的结论。这就意味着开发者能用上它来搞图表分析或者是GUI自动化之类的智能应用了。这个模型最厉害的地方就是那个混合推理行为。它能根据提示自己决定是用推理模式还是非推理模式来干活：如果遇到那种需要费脑筋的数学题或者逻辑分析问题时，它就启动多步推理链；要是任务比较简单快速感知一下就够了，比如做OCR或者找个元素的位置时，它就直接输出结果，这样就不会浪费时间降低延迟了。以后用这个模型配个计算机智能体那是相当的顺手。你把一张屏幕截图发给它，再给个自然语言指令，它马上就能算出目标UI元素的标准坐标框框。旁边的智能体拿到这个坐标数据就能立马执行点击、滚动这些动作了。