ai 真的能像真人一样靠谱吗？

人们常误以为AI能像真人一样靠谱，毕竟它们在医师资格考试里拿了高分，让大家以为它们能当健康顾问。然而英国牛津互联网研究所做了个实验，结果却让人意外。他们找来近1300名英国参与者，模拟遇到感冒、贫血、胆结石这些常见情况，决定是打急救电话还是看医生。参与者被随机分配使用GPT-4o、Llama3或CommandR+这三种大语言模型，或者使用普通的互联网搜索引擎作为对照。结果发现，在实验室里测出来的模型表现非常出色，平均能识别94.9%的疾病，还能在超过半数的情况下给出合适的建议。可一旦普通人真的用这些模型来处理问题，效果就大打折扣了。疾病识别率跌到了35%以下，给出的建议准确率也不到45%，甚至不比普通搜索引擎强多少。科学家仔细看了对话记录，发现问题出在两个地方：一方面是普通人不太会准确完整地描述症状；另一方面是AI有时候会给出看似合理但其实有误导性的回答。这就好比你想找医生看病，结果对方根本没听明白你到底哪儿疼，或者给你开了药反而加重了病情。这说明现在的大语言模型直接用来做健康咨询还不太靠谱。毕竟在真实的人机交流中，有很多复杂的东西实验室测试根本预测不到。就好比你现在要做体检了，机器给了你一大堆专业术语，你根本看不懂；或者你身体不舒服有点焦虑，跟机器说话时表达不清。这种时候，机器很难理解你的需求。现在全球都在把AI当成“第一道防线”，想让大家在看病之前先自己评估一下身体状况。但这项研究给了大家一记警钟：我们是不是高估了这些模型的能力？其实真正的问题在于人和机器的“沟通”。要想让AI真的帮上忙，不光要技术迭代，还得让它学会听懂我们的日常表达，以及在面对焦虑时如何应对。