mac 用户有福了！ollama 这回跟苹果自家的mlx 联手，给本地大模型跑起来的速度提了一大截

Mac用户有福了！Ollama这回跟苹果自家的MLX框架联手，给本地大模型跑起来的速度提了一大截，特别是用M5芯片的机型，简直像装了火箭引擎。如果你正好在Mac上折腾那些本地大模型的极客任务，Ollama刚放出的这份“性能炸弹”可千万别错过。3月31号，本地大模型方案Ollama更新了个大版本，把苹果自研的机器学习框架MLX给请了进来。这一底层架构的改动，直接让带苹果芯片的Mac电脑瞬间变强，让本地AI的反应变得像赛车一样快。来看这组核心数据：系统反应速度最高能翻倍。在处理用户输入的提示词阶段，这叫预填，速度比之前快了1.6倍；到了模型产出回复的解码阶段，字字句句弹出的速度更是翻了个跟头，提升了100%。对于用M5系列芯片的新机子来说，好处最大。因为苹果在硬件里塞了个全新的GPU Neural Accelerator神经加速器，响应速度已经逼近“瞬间到达”了。除了速度更快，这次更新还把内存管理做得特别精细。新版本能更灵活地盘活Mac系统里的统一内存Unified Memory，就算长时间聊大段文字也不卡壳。官方建议大家给电脑配个32GB或更高的内存跑起来，才能享受到最理想的效果。现在支持预览的是阿里旗下的Qwen 3.5模型。虽然这是个预览版主打Qwen 3.5，不过Ollama说了会接着适配更多主流模型。对于那些靠Ollama驱动本地AI编码工具（比如OpenClaw）或者代码助手（像Claude Code、Codex）的开发者来说，这次升级简直是工作流的闭环。延迟降到毫秒级之后，本地跑的大模型就不再是实验室里的玩具了，能直接跟云端服务掰手腕。总结一下，苹果从自研芯片一路做到了自研框架，正在收拢AI开发的话语权。而Ollama拥抱MLX这一手操作，不光让Mac稳坐了“本地AI开发首选机型”的位子，也让开发者看到了软硬件结合带来的巨大好处。