“污染”ai的信息源

今天在哈尔滨那边发生了一件怪事，哈尔滨消费者张女士买了个电动牙刷，因为是被AI推荐的，结果发现这并不是市面上最好的选择。后来在中国社会科学院大学互联网法治研究中心进行的调研中，发现学生们用AI辅助学习的时候，作业或者论文里经常出现不准确甚至完全是编造的信息，连法律条文、学术文献引用都能“造假”。再比如北京通州区人民法院在审理案子的时候，律师给他们看了一个最高人民法院的案例摘要，法官仔细一看，里面关键内容和原来的判决书完全对不上。现在的生成式AI其实就像个复杂的概率模型，只能根据大量数据训练出来的模式来组织语言和逻辑推理。它没有意识去判断信息是不是真的、是不是客观的，所以一旦训练数据有偏差或者被故意污染了，它就会一本正经地给出完全误导人的答案。现在还出现了一种灰色产业叫“生成式引擎优化”，有些人专门找供应商付费把特定品牌或商品信息放进AI经常抓取的数据源里。记者调查发现这些人会写很多包含目标关键词的文章放到网上让AI抓取。等用户问相关问题的时候，AI就可能把这些经过“优化”的信息当作标准答案推荐给用户。这种服务通常按年收费，从几千块到几万块都有。针对这种情况，中国互联网协会数据安全与治理工作委员会专家周杰指出了问题所在：现在的主流AI在回答问题的时候是先从内置知识库查资料，查不到才去网上实时搜索。如果有组织地大规模发布带有推广意图的内容到网上，确实有可能“污染”AI的信息源。中国计算机学会计算机安全专委会执行委员潘季明也说现阶段的AI还没有能力分辨客观事实和商业推广内容。其实问题不仅仅是技术上的局限性。深层次的问题在于数据生态治理、算法责任界定还有商业伦理规范这些系统性的挑战。为了不让AI变成不可控的信息迷雾之源，我们需要多方协同共治。技术开发者要持续提升模型的事实核查能力和溯源能力；内容平台和数据提供方要加强审核净化源头；监管机构也要加快研究制定适应AI发展特点的法规和标准。只有建立起包含技术、数据、法律和伦理的立体治理框架才能真正引导人工智能成为提升社会效率、增益公众福祉的工具。