今天咱们聊聊华为搞的这个大动作。华为在3月17日把针对AI推理的基础设施给推出了,主要是想让AI技术能更快地落地到各行各业。以前大家觉得AI还是个挺复杂的东西,现在他们是想把这些门槛给降下来。 为啥这么说呢?因为最近几年AI发展很快,已经到了以推理为主的新阶段了。企业现在面对的变化也很大,数据类型变多了,不光是文本,图片、视频什么的都混在一起用,数据量也从TB级直接跳到了EB级。另外,企业的核心资产也不再是单纯的数据了,而是那些能被实时调用的知识和记忆。 为了解决知识质量不行、长序列推理体验差还有推理记忆缺失这三大难题,华为这次发了个AI数据平台。这个平台把知识库、KV Cache加速和记忆库都整合起来了,还用上了UCM技术来调度管理。知识库是为了帮模型及时掌握最新的数据变化。企业的数据总是在更新的嘛,如果转化不及时,模型做的决策就不准。华为的做法是让管道更敏锐一些,把文本、图片这些资源都变成细颗粒度的知识,再通过高精度检索做到95%的正确率。 KV Cache加速主要是为了让模型在处理长文本或者多用户请求的时候不卡壳。大家都知道,大模型在推理的时候需要记很多东西,如果存不下或者速度慢就完蛋了。华为就专门给它搞了个全局分层缓存能力,让记忆数据在芯片内存、DRAM和SSD之间灵活流动。这样存储池变大了不说,响应速度也快了很多。首Token的时延直接降了90%,体验那是一下子就上来了。 记忆库就是用来记住那些模型的中间结果和历史经验的。现在的大模型普遍记性不好,算着算着就把之前的东西忘了。华为的平台能把这些信息精准地召回起来,让模型记得住事儿。记得越多的话推理结果就越准,模型也就越用越聪明。 这次发布的AI数据平台还提供两种安装方式:一种是一体化部署用的OceanStor A800一体机底座;另一种是独立式部署的“OceanStor Dorado”架构。这样既能保护用户以前的投资又能支撑业务平滑转型。 除了中心场景还有边缘场景呢!为了解决边缘那边部署复杂、成本高、效率低的问题,华为还推了FusionCube A1000 AI超融合一体机。这个机器集成度很高实现了开箱即用的效果。张伟力说它内置的平台把数据处理、模型训练和推理的全流程都搞定了基础设施部署周期缩短了80%。 这个机器还有个好处是支持边缘和中心协同工作打破数据孤岛形成一个闭环体系。比如边缘那边产生的数据能回传到中心去丰富语料然后训练出新的模型更新完以后又能一键下发到边缘侧去实现能力的持续优化和共享。 再说算力这块儿FusionCube A1000能把算力动态切分调度同时运行好几个不同的AI模型根据业务优先级智能分配资源单卡利用率提升了30%。它内置的平台还支持知识库和记忆库一起构建让数据飞轮转起来持续提升输出的准确性和实用性。 这次发布的这些产品基本上把中心到边缘的AI推理全场景都给覆盖了给行业化落地注入了新动能。华为以后还会继续在创新上下功夫赋能AI全路径帮企业把AI的商业价值给兑现出来。