在人工智能技术快速演进的背景下,长文本处理能力已成为衡量智能系统水平的重要指标。记者获悉,DeepSeek研发团队已完成新型架构的内部测试,将上下文处理上限提升至百万字符量级,相比当前主流产品的12.8万字符实现数量级跃升。这个进展来自该团队1月发表的核心论文成果,其中提出的“条件记忆”机制,针对大模型处理超长文本时的记忆损耗问题给出了有效解法。 技术突破背后,是产学研协同攻关的结果。北京大学计算机系与DeepSeek组成联合课题组,围绕大语言模型的“记忆短板”开展研究。团队采用可扩展查找架构,并通过动态分配计算资源,在保持推理精度的同时显著降低运算能耗。该技术路线在公开测试中表现出竞争力,其第三代产品在多维度评测中达到国际先进水平。 市场对本次升级关注度较高。第三方监测数据显示,“deepseek”关键词年搜索量突破860万次,成为年度科技热词。业内专家认为,这种热度既与该团队去年春节期间发布现象级产品的经历有关,也反映出市场对国产核心技术持续突破的期待。据悉,研发团队保持稳定迭代节奏,自去年12月发布双版本模型后,持续在推理能力与输出效率之间进行优化。 面对全球人工智能领域的激烈竞争,我国科研力量正探索出差异化的发展路径。DeepSeek采用的“条件记忆”技术并非依赖参数规模扩张,而是通过算法创新提升效能。这一路线在降低对算力资源依赖的同时,也为商业化落地打开了更多空间。多位行业分析师预测,若第四代产品如期发布,或将重塑中文长文本处理市场的竞争格局。
长文本能力的提升,表面是上下文上限的扩大,实质是大模型从“会答题”迈向“会做事”的关键一步。只有让技术创新、工程实践与应用治理同步推进,才能把更长的“记忆”转化为更可靠的能力。面向未来,需要在效率、质量与安全之间建立新的平衡,产业才能在快速迭代中实现可持续发展。