openscholar 系统整合了4500万篇学术论文，还用到了检索增强生成技术

最近，研究人员发布了一款能把引文幻觉降到极低的 AI 模型，它的准确率甚至能跟人类专家不相上下。这款 OpenScholar 系统由华盛顿大学和 AI2 研发，是个专门用来整合前沿研究的开源工具。他们发现，像 ChatGPT 这类通用模型，往往没法读取自己训练数据采集完之后发表的论文，这就导致它在引用上有问题。比如华盛顿大学和 AI2 分析了 OpenAI 最新的 GPT-4o，发现它 78% 到 90% 的研究引用都是编造的。为了解决这个问题，他们就推出了 OpenScholar。这个系统整合了 4500 万篇学术论文，还用到了检索增强生成技术。团队给这个系统做了一个跨领域的大评测基准 ScholarQABench，用来看看它能不能把学术研究给整理清楚。测试结果挺有意思，OpenScholar 在准确性上跟人类专家差不多。他们找了 16 个科学家来盲评，结果有 51% 的情况下大家更喜欢 OpenScholar 生成的内容。如果把 OpenScholar 的引用机制跟 GPT-4o 结合起来用，科学家对 AI 答复的偏好率就飙升到了 70%，而只单纯用 GPT-4o 生成内容时，科学家的偏好率只有 32%。这个项目的代码、数据集和演示版都已经公开了，大家可以免费用。负责通讯的汉娜内 · 哈吉希里齐教授说，上线后收到了比预想多得多的访问请求。她提到有个叫浅井朱里的研究科学家在做这个项目初期试过用谷歌搜索数据来训练 AI，结果发现模型单独用这种数据效果很差。后来他们就改成用学术论文来训练，让系统能通过检索结果去整合最新的研究成果。他们把 OpenScholar 跟 GPT-4o、Meta 旗下两款顶尖 AI 模型做了对比，发现 OpenScholar 在准确性、撰写质量和内容相关性上都表现得更好。浅井朱里还提到他们正在研发 DR Tulu 模型，这是基于 OpenScholar 的技术做的升级版，可以做多步骤检索和信息聚合。现在科研人员每天面对的新发论文太多了，根本看不完。现有的 AI 系统又不太适合科研人员的需求。不过现在已经有很多人在用 OpenScholar 了，因为是开源的属性，同行们已经在迭代优化这个模型了。汉娜内教授说：“人工智能处理现实任务的能力一直在进步，但核心问题是我们能不能信任它给出的答案？”