大模型健康应用密集上线热度攀升：体检报告解读趋于谨慎，“幻觉”风险与监管边界引关注

岁末年初，人工智能医疗健康领域迎来新一轮发展热潮。

自去年12月中旬蚂蚁集团发布AI健康应用"蚂蚁阿福"后，百度、OpenAI、京东健康、百川智能等企业纷纷推出或升级医疗健康产品，包括文心健康管家、ChatGPT Health功能、"知医"等应用。

这一现象反映出大模型技术在医疗领域的应用正成为产业竞争的新焦点。

为了评估这些应用的实际效能，记者选取了小荷AI医生、夸克健康、平安好医生、讯飞晓医、百度文心健康、京东健康、蚂蚁阿福等7款市场主流健康应用，对其体检报告解读能力进行了系统测试。

这些应用均具备拍照识别、AI问诊等基本功能，代表了当前AI医疗应用的主流水平。

在症状诊断方面，各大模型应用表现出高度的谨慎态度。

测试中，应用普遍采用"可能""提示""倾向于"等表述方式，避免绝对化判断。

以甲状腺功能检测为例，当促甲状腺激素（TSH）指标高于参考值时，百度文心健康等应用不仅分析了异常指标，还结合其他正常指标进行综合判断，提示用户虽然三碘甲状腺原氨酸（T3）处于正常范围，但结合TSH升高，用户T3指标可能偏低。

这种多维度分析方式体现了大模型在医疗应用中的逻辑推理能力。

然而，在是否建议就医的问题上，各应用出现了明显分歧。

夸克健康、讯飞晓医、蚂蚁阿福明确建议用户前往医院就诊，而其他应用则建议定期复查或出现相关症状时及时就医。

这种差异反映出不同企业对医疗风险的评估标准存在差异，也体现了AI应用在医疗决策中的谨慎程度不一。

值得关注的是，部分应用在后续交互中采取了不同策略。

小荷AI医生和百度文心健康在解读后追问用户是否存在相关症状，京东健康则提供医生问答功能，这些举措旨在提高用户粘性和应用留存度。

小荷AI医生的表达风格更为口语化，使用"咱们""勉强达标"等日常用语，体现了不同应用的差异化设计思路。

大模型技术的"幻觉"问题仍是制约其医疗应用的关键瓶颈。

在本次测试中，记者发现个别应用将促甲状腺激素（TSH）与人绒毛膜促性腺激素（HCG）混淆，甚至建议用户"优先排查是否怀孕"。

这一错误在二次复核时再次出现，说明问题具有一定的系统性。

医疗垂类模型技术人员坦言，幻觉是大模型的通病，即使是专业医疗模型也难以完全消除，只能通过持续优化来减少错误发生率。

从监管层面看，相关部门已开始为AI医疗应用的发展设立规范框架。

北京市于去年12月30日发布"AI+医疗健康"新政，为行业划定了明确的边界。

国家网信办随后发布《人工智能拟人化互动服务管理暂行办法（征求意见稿）》，为AI医疗的高速发展设定了"交通规则"和"安全护栏"。

这些举措表明，在鼓励创新的同时，监管部门正在建立相应的风险防控机制。

当前，医疗机构也在提醒患者理性对待AI诊疗建议。

当医生处方与AI建议出现冲突时，患者应以医生的专业判断为准，切勿过分依赖AI问诊结果。

这一提示反映出AI医疗应用的定位应是辅助工具而非替代品。

数字健康技术的创新发展犹如一把双刃剑，既为提升医疗服务效率开辟新路径，也对技术可靠性和应用边界提出更高要求。

在科技进步与民生保障的天平上，唯有坚持技术赋能与风险防范并重，建立科学完善的监管体系，才能让创新成果真正惠及全民健康事业，这需要技术开发者、医疗机构和监管部门形成合力，共同推动行业行稳致远。