低成本大模型在卢旺达、巴基斯坦实测显示或可提升资源匮乏地区诊断能力

医疗资源分布不均是全球性难题。许多发展中国家，基层卫生系统长期面临医护人员紧缺、患者数量庞大、诊疗条件不足等压力。卢旺达和巴基斯坦就是典型案例。在卢旺达四个医疗资源相对匮乏的地区——由于医护人员不足——大量患者难以及时就诊，不少人只能先由培训有限的社区工作者进行初步问诊与分诊。巴基斯坦同样存在医学专家短缺、患者负担沉重、误诊率偏高等问题，直接影响基层医疗质量与患者安全。为寻找可行路径，两支独立研究团队分别在两国开展了实地验证。非营利国际健康组织PATH的研究人员在卢旺达组织约100名社区卫生工作者，整理出一份包含5600个临床问题的清单，内容均来自患者的真实咨询。研究人员选取其中约500个问题，将五种先进语言模型的回答与受训的当地临床医生回答进行对比评估。结果显示，在11项评价指标上，所有语言模型的整体表现均优于当地医生。此外，这些模型还能用当地语言卢旺达语回答约100个问题，有助于提升沟通可及性。巴基斯坦上，拉合尔管理科学大学团队开展了更贴近实际诊疗流程的随机对照试验。58名执业医师接受了20小时专项培训，学习如何使用先进语言模型辅助分析症状，并识别模型可能出现的错误。试验结果显示，能够使用先进模型的医生在诊断准确性评分上显著高于仅依赖传统医学数据库和互联网检索的医生。数据显示，使用模型辅助诊断的医生平均诊断推理得分为71分，而使用传统资源的医生平均得分为43分。成本优势也是该方案的重要亮点。在卢旺达，医生咨询费用约为5.43美元、护士约为3.80美元，而先进语言模型用英语回答的成本仅约0.0035美元，用当地语言回答约0.0044美元。这意味着在成本极低的情况下，医疗资源匮乏地区有望获得更稳定的诊疗支持，并在一定程度上减少对人员数量与工作时段的限制。然而，技术落地仍存在风险。美国贝斯以色列女执事医疗中心的临床研究员指出，基于书面答案的评估更适合衡量模型能力，而对人类表现的比较可能受到评估方式限制。巴基斯坦研究也发现，在31%的病例中，医生的表现优于模型的中位数水平，这些病例多涉及临床警示信号与复杂背景信息，恰是模型较易遗漏的环节。专家同时提醒，先进语言模型可能存在偏见风险与患者数据保密隐患，需要严格防范。若过度依赖模型，医生可能在缺少质疑与核验的情况下接受不完善结论，增加诊疗风险。因此，更合理的定位是将模型作为辅助工具而非替代者，医生的临床判断与经验仍是关键。研究团队表示，这些发现有望为其他医疗资源匮乏国家和地区提供参考，但仍需在不同地区、使用不同模型开展重复验证，以检验结论的普适性。

当科技创新与人文关怀相互支撑，医疗普惠就更接近现实；这两项研究既展示了技术提升基层诊疗能力上的潜力，也提醒人们：提高效率的同时，必须守住医疗安全与伦理底线。只有让人类专业判断与机器能力形成互补，才能在数字化进程中推动更公平、更可持续的健康未来，并为缓解全球医疗资源失衡提供新的可能。