面向以大模型、检索增强等技术为代表的新一轮产业应用浪潮,数据系统“跑得快、用得稳、答得准”的需求愈发突出。
如何让语义检索与结构化过滤在同一系统内高效协同,如何在权限控制、可追溯、一致性等治理约束下稳定服务业务,成为当前AI工程化落地绕不开的关键问题。
业内普遍认为,过去以“搜索能力外接数据库”的拼装式架构,在延迟、系统复杂度、数据一致性与运维成本等方面难以支撑大规模应用,具备原生混合检索与多模态能力的新型数据库,将在更多行业场景中迎来需求增长。
这一问题的形成,既有技术演进驱动,也有应用侧倒逼。
其一,AI应用对知识获取提出“语义+结构”并行要求,既要能理解文本、图像等非结构化信息,又要能对结构化字段进行筛选、排序与审计;其二,企业级场景强调合规与治理,要求结果可追溯、过程可复现、权限可控、数据一致,这对数据库内核能力与工程实现提出更高门槛;其三,AI系统从试点走向常态化服务后,性能波动与稳定性问题会被成倍放大,数据底座成为影响用户体验与成本控制的决定性环节。
由此,数据库不再只是后台支撑组件,而正逐渐走向AI应用链路的核心位置。
围绕上述趋势,本届大赛以真实工程约束牵引能力培养,采用递进式赛制组织比拼。
初赛依托实战项目MiniOB,要求参赛者从零实现数据库核心模块,并集成向量检索能力,重点检验选手对系统原理、存储与执行、索引与优化等底层能力的掌握。
决赛则首次引入遵循Apache 2.0协议开源的AI原生数据库OceanBase seekdb,设置“内核优化”和“AI应用开发”两道题目:一方面在8核16GB单机环境下提升“全文检索+标量过滤”的混合查询性能,并设置召回率门槛,突出性能与效果并重;另一方面要求基于优化后的系统构建端到端多模态检索增强系统,在限定时间内给出答案并追溯至PDF页码或图表来源,以工程可追溯性检验“可靠可用”。
两道题目分别对应AI落地中速度与稳定的核心诉求,也直指“数据能力与智能能力协同优化”的工程难点。
赛事组织方面,本届比赛由系统能力培养研究专家组发起,全国高等学校计算机教育研究会、系统能力培养研究项目示范高校共同主办,北京科技大学与OceanBase联合承办。
全国高校共1223支队伍报名参赛。
经多轮评审,10支来自北京邮电大学、华东师范大学、北京交通大学、东北大学等高校的队伍进入决赛答辩,评审从系统设计、性能表现、稳定性、工程可复现性等维度综合打分,最终产生冠、亚、季军及专项奖。
北京邮电大学“编程高手”队凭借在数据库内核优化与AI应用开发中的综合表现夺冠并获得奖金。
从影响看,大赛折射出数据库人才培养的方向变化:从“会用数据库”转向“能做数据库、能做优化、能做工程落地”。
业内人士指出,随着AI应用进入规模化阶段,数据库与AI将呈现双向融合:一方面利用智能方法提升查询优化、资源调度、异常诊断等能力,另一方面构建面向训练与推理的新型数据基础设施,以更低成本提供更高质量的数据服务。
人才结构也随之发生变化,既理解系统底层、又具备工程化能力与业务视角的复合型人才将更受市场青睐,相应缺口可能进一步扩大。
在对策层面,多位专家强调以产业真实问题推动教学改革的重要性。
系统能力培养研究专家组成员、北京师范大学教授计卫星认为,以实际场景为牵引能够弥补部分实践教学“理想化”的不足,促使学生在可复现、可交付的工程约束下锻炼系统能力与综合素养,并通过“产学研用”协同机制,推动核心基础软件人才培养持续迭代。
北京科技大学计算机与通信工程学院院长殷绪成表示,AI时代的人才培养应推动“AI与数据库深度融合”,既面向AI应用构建高效数据底座,也探索以智能方法提升数据库性能与可靠性,通过赛事训练推动学生从工具使用走向系统设计与性能优化。
展望未来,随着大模型能力不断增强、企业数据治理体系持续完善、行业应用从点状试验走向平台化建设,AI原生数据库及相关基础软件将迎来更广阔的应用空间。
与此同时,核心技术突破仍需长期投入:在存储引擎、执行与优化、索引结构、多模态检索、一致性与治理等方面持续夯实“基座”,并通过开放生态与标准化工程实践提升产业协同效率。
以竞赛为纽带联动高校与产业,在人才培养、技术验证与工程落地之间形成闭环,有望加速创新成果走向应用场景。
这场汇聚千余名高校学子的技术竞技,不仅展现了青年一代的创新活力,更折射出中国基础软件发展的深层逻辑——在AI浪潮中,唯有夯实数据“基座”,才能托起智能时代的万丈高楼。
当越来越多的“青年方案”从实验室走向产业一线,中国数据库技术的自主创新之路将越走越宽广。