大模型时代高质量数据集已成为推动ai 发展的核心关键

中新网福州5月2日消息，记者蔡敏婕带来报道。大模型时代里，高质量数据集已成为推动AI发展的核心关键。第八届数字中国建设峰会刚在福州结束，大家在分论坛上也在聊AI和数据流通怎么玩。中国电子信息产业集团有限公司有个副总经理王桂荣讲，目前AI大模型要想好用，算力、算法和数据都得跟上。但现实中最难的是数据整理利用效率太低，好多企业想给模型喂数据却喂不进去，真正能把业务知识有效供给进去的企业还不到10%，这直接导致模型没法帮企业解决实际问题。除了效率问题，现在的数据基础设施越来越完善了，怎么保证数据安全地流通也是个大坎。王桂荣提到，传统靠设边界来防护的老法子在复杂网络环境里不灵了。为此他们集团弄了个叫“大模型安全空间”的解决方案，专门针对数据泄露、模型被攻击这些情况帮企业搭建多层防御体系。现在大家都觉得数据要素能催生出很多AI应用，反过来AI也能促进数据流通。王桂荣举了个例子：美国有个做数据标注的Scale AI公司很成功，这说明做数据产业确实能赚到钱，说不定以后在AI相关市场里能占半边天呢。未来数据集的流通重点会放在让大模型深度消费第三方平台上。国家数据局那边的余英副局长也在论坛上说了：数据要素是数字经济的命脉。它流动性强、复制成本低、带来的好处还会越来越多。搞市场化配置的时候，咱们得想办法发挥好它的正面作用、躲开负面影响。北京大学信息科学与技术学部的主任梅宏觉得发展数字经济就得先把数据市场培育起来。咱们国家在数据要素化这块儿才刚起步，资产地位、权属确权、交易利益分配这些方面都有不少麻烦。工业和信息化部电子第五研究所的所长杨建军也在会上谈到了治理问题。他说现在不管是数据质量还是责任界定都有难处，各国治理思路还不太一样。咱们中国得在技术上突破瓶颈、在制度上建机制、在落地时加强合作。只有这样才能建一个安全又可信的人工智能发展环境。