AI搞到现在,数据真的够用吗?这问题可是把今年在上海举办的WAIC2025给引爆了。中新网在7月28日当天发了消息,现场讨论最火的就是作为“大模型养料”的数据到底够不够。中国信息通信研究院那边查了个底掉,给咱们中国算了一笔账,到目前为止咱们国家已经有1509个大模型了,在全球已经发布的3755个大模型里,中国排第一。中国科学院的鄂维南院士也直接点出了这行的核心矛盾:以前是“拼模型”,现在变成了“拼数据”。 在这种背景下,机器人变得特别聪明。可这背后的代价也很明显——把这1509个大模型喂大需要的资源实在太大。上海商汤智能科技有限公司的徐立董事长兼CEO就说了实话,以前靠互联网数据就能把大模型给喂饱,但现在这路子眼看要走到头了。他认为AI要是想再有大突破,就得跳出数字世界的老路子,去跟物理世界打交道,把具身智能给整合进来。 还有就是这次上海人工智能实验室的青年科学家何聪辉也给了个关键提醒,数据的基础设施是整个智能时代的地基。现在的问题不光是数据的量够不够,“质量之战”才是最要紧的事儿。北京智谱华章科技股份有限公司的王绍兰总裁也觉得行业里沉淀了海量的数据没被用起来。他觉得预训练其实就是个量的问题,但反过来看还得看质量;不过话说回来,还有很多行业数据因为场景没给到位,根本没机会被训练出来。