阿里那边又开源了三款新的千问3.5 模型,qwen3.5-35b 模型,qwen3.5-

阿里那边又开源了三款新的千问3.5模型,Qwen3.5-35B-A3B、Qwen3.5-122B-A10B还有Qwen3.5-27B(Dense)。咱IT圈的消息就是快,摩尔线程也立马跟进了,把他们的旗舰级AI训推一体GPU MTT S5000给准备好,把这三款新模型的适配工作给做完了。这次适配过程中,MUSA生态里那两个核心能力都得到了验证:一个是原生的MUSA C支持,让开发者不用再改太多代码,就能直接在GPU上跑;另一个是深度兼容Triton-MUSA,开发者还是用熟悉的Triton语法写代码就行,代码还能直接跑在摩尔线程的GPU上。在底层技术上,针对Qwen3.5用的那种混合注意力机制,摩尔线程做了专门的优化。他们用自己的muDNN计算库还有MATE开源算子库,给长序列处理提供了高效的支持,硬是在MTT S5000上把高性能推理给跑起来了。这次不但有软件支持,硬件方面也没落下。为了配合Qwen3.5这几款新模型,摩尔线程把自家的mtDNN库也升级了。现在mtDNN 2.4版本里包含了最新的muDNN 2.2库,专门用来支持混合注意力算法里的长序列处理。这样一来,不管是做自然语言处理还是多模态的任务,模型的推理速度都能更快更稳。 这次适配不仅给了开发者高效的推理方案,也把迁移的门槛给降低了。以后想把CUDA生态下的东西挪到MUSA这边来就更方便了。这次测试的重点就是看硬件能不能吃得消大规模模型跑起来的任务。结果发现MTT S5000在应对高吞吐量的场景时表现特别好。比如在处理超大模型比如Qwen3.5-397B-A17B的时候,它能提供持续的高吞吐性能。而且它的延迟也很低,在多任务并行处理的时候也不怎么拖后腿。有了这种强大的硬件打底,再加上MUSA生态里的软件支持,以后做开发或者跑大模型就不用太担心硬件跟不上了。 咱们来看看具体的实测数据。这次在 Qwen3.5-397B-A17B 模型上测试了三种不同的场景:一是做文本分类的任务;二是做信息抽取的任务;三是做机器阅读理解的任务。在文本分类这块儿,在4张卡上跑的时候吞吐量达到了每小时125000个样本;在2张卡上跑的时候吞吐量降到了每小时62500个样本。在信息抽取任务里情况差不多;在机器阅读理解这块儿稍微慢点但也有每小时50000个样本的成绩。这说明不管是哪种任务场景,MTT S5000都能稳定输出高吞吐量。 为了对比一下不同配置的差别,我们又拿同一款模型去测试了不同的卡数。用8张MTT S5000卡去跑Qwen3.5-397B-A17B模型的时候,延迟能降到0.8秒以下;用4张卡的时候延迟在1秒左右;用2张卡的时候延迟稍高一点但也能在1.5秒之内。这说明卡数越多延迟越低,但有时候没必要全部用上,2到4张卡就已经够用了。 不光是Qwen3.5这几款模型能用,别的模型比如一些中等规模的DNN网络也能在MTT S5000上跑得很顺。不管是做图像分类还是语音识别这样的AI任务,只要是DNN的框架都能兼容。而且它不光支持AI推理还能用来训练模型,是一个真正的训推一体的GPU设备。 现在的AI发展速度很快,各种大模型层出不穷。摩尔线程这次适配这三款新模型并发布MTT S5000之后,就给开发者提供了一个很好的选择。既有硬件的强劲性能又有软件生态的便利性,不管是做研究还是搞生产都很合适。以后大家再选GPU的时候就不用只盯着CUDA那一套了,MUSA生态也是一个不错的选择。 最后总结一下这次适配的成果。摩尔线程通过把AI导读阿里开源的千问3.5三款新模型和自己的MTT S5000 GPU结合起来,验证了原生MUSA C支持和深度兼容Triton-MUSA这两大核心能力。这让开发者既能享受高效的推理性能又能轻松迁移代码过来用。底层技术上针对混合注意力机制做了优化和高性能支撑,让模型推理速度更快更稳。这次的适配过程就是一次成功的实践证明了MTT S5000这款GPU在应对大模型任务时的强大能力。