阿里那边又开源了三款新的千问3.5 模型，qwen3.5-35b 模型，qwen3.5-

阿里那边又开源了三款新的千问3.5模型，Qwen3.5-35B-A3B、Qwen3.5-122B-A10B还有Qwen3.5-27B（Dense）。咱IT圈的消息就是快，摩尔线程也立马跟进了，把他们的旗舰级AI训推一体GPU MTT S5000给准备好，把这三款新模型的适配工作给做完了。这次适配过程中，MUSA生态里那两个核心能力都得到了验证：一个是原生的MUSA C支持，让开发者不用再改太多代码，就能直接在GPU上跑；另一个是深度兼容Triton-MUSA，开发者还是用熟悉的Triton语法写代码就行，代码还能直接跑在摩尔线程的GPU上。在底层技术上，针对Qwen3.5用的那种混合注意力机制，摩尔线程做了专门的优化。他们用自己的muDNN计算库还有MATE开源算子库，给长序列处理提供了高效的支持，硬是在MTT S5000上把高性能推理给跑起来了。这次不但有软件支持，硬件方面也没落下。为了配合Qwen3.5这几款新模型，摩尔线程把自家的mtDNN库也升级了。现在mtDNN 2.4版本里包含了最新的muDNN 2.2库，专门用来支持混合注意力算法里的长序列处理。这样一来，不管是做自然语言处理还是多模态的任务，模型的推理速度都能更快更稳。这次适配不仅给了开发者高效的推理方案，也把迁移的门槛给降低了。以后想把CUDA生态下的东西挪到MUSA这边来就更方便了。这次测试的重点就是看硬件能不能吃得消大规模模型跑起来的任务。结果发现MTT S5000在应对高吞吐量的场景时表现特别好。比如在处理超大模型比如Qwen3.5-397B-A17B的时候，它能提供持续的高吞吐性能。而且它的延迟也很低，在多任务并行处理的时候也不怎么拖后腿。有了这种强大的硬件打底，再加上MUSA生态里的软件支持，以后做开发或者跑大模型就不用太担心硬件跟不上了。咱们来看看具体的实测数据。这次在 Qwen3.5-397B-A17B 模型上测试了三种不同的场景：一是做文本分类的任务；二是做信息抽取的任务；三是做机器阅读理解的任务。在文本分类这块儿，在4张卡上跑的时候吞吐量达到了每小时125000个样本；在2张卡上跑的时候吞吐量降到了每小时62500个样本。在信息抽取任务里情况差不多；在机器阅读理解这块儿稍微慢点但也有每小时50000个样本的成绩。这说明不管是哪种任务场景，MTT S5000都能稳定输出高吞吐量。为了对比一下不同配置的差别，我们又拿同一款模型去测试了不同的卡数。用8张MTT S5000卡去跑Qwen3.5-397B-A17B模型的时候，延迟能降到0.8秒以下；用4张卡的时候延迟在1秒左右；用2张卡的时候延迟稍高一点但也能在1.5秒之内。这说明卡数越多延迟越低，但有时候没必要全部用上，2到4张卡就已经够用了。不光是Qwen3.5这几款模型能用，别的模型比如一些中等规模的DNN网络也能在MTT S5000上跑得很顺。不管是做图像分类还是语音识别这样的AI任务，只要是DNN的框架都能兼容。而且它不光支持AI推理还能用来训练模型，是一个真正的训推一体的GPU设备。现在的AI发展速度很快，各种大模型层出不穷。摩尔线程这次适配这三款新模型并发布MTT S5000之后，就给开发者提供了一个很好的选择。既有硬件的强劲性能又有软件生态的便利性，不管是做研究还是搞生产都很合适。以后大家再选GPU的时候就不用只盯着CUDA那一套了，MUSA生态也是一个不错的选择。最后总结一下这次适配的成果。摩尔线程通过把AI导读阿里开源的千问3.5三款新模型和自己的MTT S5000 GPU结合起来，验证了原生MUSA C支持和深度兼容Triton-MUSA这两大核心能力。这让开发者既能享受高效的推理性能又能轻松迁移代码过来用。底层技术上针对混合注意力机制做了优化和高性能支撑，让模型推理速度更快更稳。这次的适配过程就是一次成功的实践证明了MTT S5000这款GPU在应对大模型任务时的强大能力。