阿里巴巴把Qwen 3.5小模型系列正式公布了,其中一些版本甚至达到了和GPT-OSS差不多的水准。Qwen团队这次一口气推出了0.8B、2B、4B还有9B四种尺寸的紧凑型AI模型,并且每种都附带了基础模型。团队提到,搞这套东西主要是想方便大家搞研究、做实验,或者在工业界实际用上。这说明现在的AI发展有个明显的趋势,就是花更少的算力就能搞定很多事。 这个消息里最亮眼的点,就是Qwen 3.5-9B这个大家伙,它正在缩小性能上的差距。与它一起发布的测试数据显示,这个9B的模型在好多考试里都不比甚至比GPT-OSS-120B强。比如GPQA Diamond这一项它得了81.7分,对手才71.5;HMMT 2025年2月它拿下了83.2分,对手是76.7;MMMU-Pro它拿到70.1分,对手只有59.7;ERQA也是它55.5分赢了44.3分。这么看来,一个体量只有对方十二分之一的9B模型能打得过大家伙,实在是太让人惊讶了。 在多语言这块儿(MMMLU),Qwen3.5-9B拿了81.2分,比两个GPT-OSS变体都高,还跟Qwen3-Next-80B-A3B-Thinking的81.3分打了个平手。在看文档和理解方面(OmniDocBench v1.5),它更是用87.7分的成绩领先。 Qwen 3.5小系列在设计上也是讲究分层的。0.8B和2B这种小型号主要是为了跑快点、省电用的,特别适合装在手机里或者做些对速度要求高的活儿。4B则是轻量级的AI助手基础模型,既能干得好活又不占太多地方。至于9B,那是这套产品里的旗舰型号。 所有的模型都是建在Qwen3.5的架构上的。这个架构自带多模态功能,结构也改进过,还用上了强化学习的技术。这种技术在做大模型时能明显提升能力。 这次发布引起了不少人的注意。埃隆·马斯克——他最近总爱挑OpenAI和Anthropic的刺——这次竟然在X上推荐了Qwen 3.5小系列,就简简单单写了句“智能密度真高”。这句话虽然不长,但分量挺重的。“智能密度”指的就是能力和体积的比例,这正是阿里想通过这次发布展示的东西。对于马斯克这种平时不怎么夸别人的人来说,这算是很高的评价了。不过也有人不信邪。Anthropic的Dario Amodei最近就说了,中国的模型在考试里成绩很好,但在现实生活中可能就不行了。 为了鼓励大家用,阿里这次把基础模型和指令调优版一块放出来了。基础模型能给研究人员和开发者做个底儿,让他们在上面做针对具体任务的修改。这样的做法意味着开源和闭源的区别越来越小了,中国的AI实验室正在推着这两股力量往一起靠。 对于那些想部署AI的企业——特别是那些担心费用、速度或者数据被别人管着的公司来说,Qwen 3.5小系列绝对是个新的好选择。以前那种花小钱办大事的说法现在不是虚的了。