mac 用户有福了!ollama 这回跟苹果自家的mlx 联手,给本地大模型跑起来的速度提了一大截

Mac用户有福了!Ollama这回跟苹果自家的MLX框架联手,给本地大模型跑起来的速度提了一大截,特别是用M5芯片的机型,简直像装了火箭引擎。如果你正好在Mac上折腾那些本地大模型的极客任务,Ollama刚放出的这份“性能炸弹”可千万别错过。3月31号,本地大模型方案Ollama更新了个大版本,把苹果自研的机器学习框架MLX给请了进来。这一底层架构的改动,直接让带苹果芯片的Mac电脑瞬间变强,让本地AI的反应变得像赛车一样快。 来看这组核心数据:系统反应速度最高能翻倍。在处理用户输入的提示词阶段,这叫预填,速度比之前快了1.6倍;到了模型产出回复的解码阶段,字字句句弹出的速度更是翻了个跟头,提升了100%。对于用M5系列芯片的新机子来说,好处最大。因为苹果在硬件里塞了个全新的GPU Neural Accelerator神经加速器,响应速度已经逼近“瞬间到达”了。 除了速度更快,这次更新还把内存管理做得特别精细。新版本能更灵活地盘活Mac系统里的统一内存Unified Memory,就算长时间聊大段文字也不卡壳。官方建议大家给电脑配个32GB或更高的内存跑起来,才能享受到最理想的效果。 现在支持预览的是阿里旗下的Qwen 3.5模型。虽然这是个预览版主打Qwen 3.5,不过Ollama说了会接着适配更多主流模型。 对于那些靠Ollama驱动本地AI编码工具(比如OpenClaw)或者代码助手(像Claude Code、Codex)的开发者来说,这次升级简直是工作流的闭环。延迟降到毫秒级之后,本地跑的大模型就不再是实验室里的玩具了,能直接跟云端服务掰手腕。 总结一下,苹果从自研芯片一路做到了自研框架,正在收拢AI开发的话语权。而Ollama拥抱MLX这一手操作,不光让Mac稳坐了“本地AI开发首选机型”的位子,也让开发者看到了软硬件结合带来的巨大好处。