DeepSeek下周要给咱们放出他们的V4多模态模型,听说2月28日的消息是从金融时报那边来的。DeepSeek准备在下周推出最新的大语言模型,离上一次重要版本发布已经过了大半年,这直接让中国在AI领域向美国发起挑战的劲头又给提了上来。有两位知道内幕的人说了,杭州的DeepSeek实验室这次要推出V4模型,它不光能处理文字,还能搞定图片和视频的生成。他们还透露,DeepSeek已经找了华为和寒武纪这两家中国芯片制造商合作,打算给两家公司的最新产品做优化,把V4模型的运行效率给提升上去。这是自2025年1月发布R1推理模型以来DeepSeek推出的头一个重要大更新。这家公司敢夸口说,他们搞的系统只需要很少的算力就能跟硅谷最厉害的AI模型一较高下。这一下可把美国科技股给震住了,有专家甚至把这叫成人造卫星时刻。 DeepSeek一直在发布一些小修小补的更新而不是全新的东西,这就让阿里巴巴还有Moonshot这些国内竞争对手有机会去抢占低成本开源中国模型的市场需求。DeepSeek现在拼命优化V4模型好让它能跑在中国制造的芯片上,这不仅能给咱们国家的半导体产品提提气,也能把推理这块市场从美国的英伟达和AMD手里抢回来一点。路透社最先曝光了DeepSeek跟华为和寒武纪合作的消息。有知情人士还说DeepSeek没去找英伟达做优化。虽然英伟达现在在训练芯片市场还是大头,特别是那种计算量特别大的预训练阶段最需要它。 DeepSeek去年推出R1的时候带了一份很详细的技术报告,讲他们怎么更高效地用Nvidia芯片来训练和运行模型。DeepSeek因为把做推理模型的训练方法拿出来分享了一把受到了不少好评,别的实验室也就有机会去研究并应用他们的发现了。推理模型说白了就是把复杂的问题拆成更小的步骤去解决。有直接知情人士说了,DeepSeek这次发V4的时候可能会先放出个短一点的技术说明,大概一个月后再发个更全面的报告。这事儿还没说完呢,前两天Anthropic还指责DeepSeek和另外两家中国AI实验室对它搞蒸馏攻击呢。这种做法就是用更高级系统的输出来训练小模型,让它们不用费那么大劲就能复制美国公司的性能。到现在这几家公司都没回应这事儿呢。(鞭牛士、AI普瑞斯编译)