ai 真的能像真人一样靠谱吗?

人们常误以为AI能像真人一样靠谱,毕竟它们在医师资格考试里拿了高分,让大家以为它们能当健康顾问。然而英国牛津互联网研究所做了个实验,结果却让人意外。他们找来近1300名英国参与者,模拟遇到感冒、贫血、胆结石这些常见情况,决定是打急救电话还是看医生。参与者被随机分配使用GPT-4o、Llama3或CommandR+这三种大语言模型,或者使用普通的互联网搜索引擎作为对照。 结果发现,在实验室里测出来的模型表现非常出色,平均能识别94.9%的疾病,还能在超过半数的情况下给出合适的建议。可一旦普通人真的用这些模型来处理问题,效果就大打折扣了。疾病识别率跌到了35%以下,给出的建议准确率也不到45%,甚至不比普通搜索引擎强多少。 科学家仔细看了对话记录,发现问题出在两个地方:一方面是普通人不太会准确完整地描述症状;另一方面是AI有时候会给出看似合理但其实有误导性的回答。这就好比你想找医生看病,结果对方根本没听明白你到底哪儿疼,或者给你开了药反而加重了病情。 这说明现在的大语言模型直接用来做健康咨询还不太靠谱。毕竟在真实的人机交流中,有很多复杂的东西实验室测试根本预测不到。就好比你现在要做体检了,机器给了你一大堆专业术语,你根本看不懂;或者你身体不舒服有点焦虑,跟机器说话时表达不清。这种时候,机器很难理解你的需求。 现在全球都在把AI当成“第一道防线”,想让大家在看病之前先自己评估一下身体状况。但这项研究给了大家一记警钟:我们是不是高估了这些模型的能力?其实真正的问题在于人和机器的“沟通”。要想让AI真的帮上忙,不光要技术迭代,还得让它学会听懂我们的日常表达,以及在面对焦虑时如何应对。