施普林格自然大语言模型:ai还能给病人看病用

AI现在看来还挺难帮大家搞定日常健康决定呢。中新网北京这边的2月10日传来消息,施普林格·自然旗下的《自然-医学》发了篇论文,说现在的大语言模型(LLM)虽然可能在专业考试里分数很高,但真要是放到现实中,恐怕没法给普通人提供什么靠谱的医疗建议。研究人员觉得,以后设计这类AI工具的时候,得先好好考虑怎么让它们真的好用,不然直接给公众用风险很大。 全球的医疗机构不是都挺看好用大语言模型来提升大家获取医疗信息的效率吗?就是想让个人在找医生之前先自己搞个初步评估和管理。可这也不保险啊,之前有些研究就发现,这些在考试里得分很高的模型,在实际交流的时候并不一定好使。 英国牛津大学的团队这回就做了个测试,把1298名英国受试者找来,每人给他们安排10种不同的医疗场景,让他们随机挑一个大语言模型(比如GPT-4o、Llama3或者Command R+)或者是用常用的互联网搜索引擎去解决问题。结果很有意思:如果不考虑人类使用者直接给模型出题的话,模型的表现其实挺猛的,平均能在94.9%的情况里把病认准,在56.3%的时候给出正确的行动建议。 可一旦换成了真人真的在使用的时候情况就变了。这时候大语言模型的识别率就掉到了34.5%以下,选择正确行动方案的概率也只有44.2%左右,这还没对照组用搜索引擎查出来的效果好呢。研究人员把其中30种情况仔细检查了一下,发现用户经常给模型提供的信息又不全又不准;反过来大语言模型有时候也会生成一些让人误解或者干脆是错的东西。 所以论文最后总结说,目前的大语言模型还没准备好直接去给患者看病用。把AI和人类用户凑对儿之后会产生很多新的问题,这些问题是之前那种在实验室做的基准测试和模拟互动根本预测不到的。