qwen 3.5-9b的大家伙，它正在缩小性能上的差距

阿里巴巴把Qwen 3.5小模型系列正式公布了，其中一些版本甚至达到了和GPT-OSS差不多的水准。Qwen团队这次一口气推出了0.8B、2B、4B还有9B四种尺寸的紧凑型AI模型，并且每种都附带了基础模型。团队提到，搞这套东西主要是想方便大家搞研究、做实验，或者在工业界实际用上。这说明现在的AI发展有个明显的趋势，就是花更少的算力就能搞定很多事。这个消息里最亮眼的点，就是Qwen 3.5-9B这个大家伙，它正在缩小性能上的差距。与它一起发布的测试数据显示，这个9B的模型在好多考试里都不比甚至比GPT-OSS-120B强。比如GPQA Diamond这一项它得了81.7分，对手才71.5；HMMT 2025年2月它拿下了83.2分，对手是76.7；MMMU-Pro它拿到70.1分，对手只有59.7；ERQA也是它55.5分赢了44.3分。这么看来，一个体量只有对方十二分之一的9B模型能打得过大家伙，实在是太让人惊讶了。在多语言这块儿（MMMLU），Qwen3.5-9B拿了81.2分，比两个GPT-OSS变体都高，还跟Qwen3-Next-80B-A3B-Thinking的81.3分打了个平手。在看文档和理解方面（OmniDocBench v1.5），它更是用87.7分的成绩领先。 Qwen 3.5小系列在设计上也是讲究分层的。0.8B和2B这种小型号主要是为了跑快点、省电用的，特别适合装在手机里或者做些对速度要求高的活儿。4B则是轻量级的AI助手基础模型，既能干得好活又不占太多地方。至于9B，那是这套产品里的旗舰型号。所有的模型都是建在Qwen3.5的架构上的。这个架构自带多模态功能，结构也改进过，还用上了强化学习的技术。这种技术在做大模型时能明显提升能力。这次发布引起了不少人的注意。埃隆·马斯克——他最近总爱挑OpenAI和Anthropic的刺——这次竟然在X上推荐了Qwen 3.5小系列，就简简单单写了句“智能密度真高”。这句话虽然不长，但分量挺重的。“智能密度”指的就是能力和体积的比例，这正是阿里想通过这次发布展示的东西。对于马斯克这种平时不怎么夸别人的人来说，这算是很高的评价了。不过也有人不信邪。Anthropic的Dario Amodei最近就说了，中国的模型在考试里成绩很好，但在现实生活中可能就不行了。为了鼓励大家用，阿里这次把基础模型和指令调优版一块放出来了。基础模型能给研究人员和开发者做个底儿，让他们在上面做针对具体任务的修改。这样的做法意味着开源和闭源的区别越来越小了，中国的AI实验室正在推着这两股力量往一起靠。对于那些想部署AI的企业——特别是那些担心费用、速度或者数据被别人管着的公司来说，Qwen 3.5小系列绝对是个新的好选择。以前那种花小钱办大事的说法现在不是虚的了。