问题——多模态大模型在视觉问答、数学推理、检索等任务中的应用加速落地,但“回答很肯定却未必正确”的情况仍较常见。研究团队在实验中逐步为输入图像增加噪声并同步观察模型表现,发现图像清晰度明显下降后,模型准确率随之降低,但输出置信度变化不大,显示出“信心不随证据变化而调整”的特征。这类“盲目自信”在复杂场景中可能放大误判风险,尤其当模型用于辅助决策、内容审核或工程运维等需要谨慎判断的任务时,问题更为突出。 原因——从机理上看,多模态模型往往在大规模数据上形成较强的语言先验与模式记忆。当视觉证据退化时,模型可能更依赖“看起来像答案”的文本推断,而不是对图像进行充分辨识与核验。此外,现有不少方法默认模型已经有效利用视觉信息,主要在推理策略或采样规模上优化,却相对忽略了一个更前置的问题:模型能否对“看得清还是看不清”做出与证据匹配的自我评估。若置信度不能真实反映感知质量变化,就会导致推理阶段的资源分配失衡——该复核时没有复核,不该下结论时却给出高强度判断。 影响——研究团队提出的CA-TTS(Confidence-Aware Test-Time Scaling)框架,将“置信度是否可信”作为提升推理可靠性的关键变量:先让模型对证据强弱更敏感,再让这种更贴近事实的置信度在推理过程中发挥调度作用。实验显示,CA-TTS在四个主流视觉推理基准上整体超过既有最优方案,平均提升8.8%。在Math-Vision任务上,模型准确率由基线的23.0%提升至42.4%,提升幅度明显。除准确率外,该框架在扩展效率上也表现突出:在同等或可控的推理开销下,通过更合理的计算分配获得更高收益,体现出较强的工程落地价值。 对策——CA-TTS的技术路径分两步推进。第一步是置信度校准:引入置信度驱动的强化学习模块,通过“感知敏感性奖励”和“校准一致性奖励”两类机制,引导模型在视觉信息充分与不足的不同条件下,给出与证据强度相匹配的置信判断,避免在看不清时仍输出高置信结论。第二步是推理阶段的资源调度:将校准后的置信度转化为可执行的推理信号,形成三段式协同闭环——其一,采用置信度加权的一致性策略生成候选答案,减轻简单多数投票可能带来的系统性偏差;其二,当初步结果置信度不足时触发反思式再推理,提高复杂样例的纠错概率;其三,在视觉层面对答案进行核验,更降低“语言推断压过视觉证据”的风险。整体设计强调“先感知、再推理、后验证”,让推理链条具备一定的自我纠偏能力。 前景——业内普遍认为,多模态模型将走向更广泛的行业应用,可靠性、可解释性与风险可控性将成为重要评价维度。CA-TTS的思路对后续研究具有启发意义:与其单纯增加推理步数,不如先解决“置信度是否可信”“感知是否到位”等基础问题,再进行有针对性的扩展与复核。面向未来,该框架有望在需要审慎输出的场景发挥更大作用,例如低质量图像识别、复杂图表理解、跨模态检索核验等方向。同时,如何在不同任务与不同模型结构中稳定实现置信度校准、如何在效率与可靠性之间取得更优平衡,也将成为后续工程化落地与标准化评测的重要议题。
随着人工智能技术持续深入发展,系统的可靠性与安全性正成为影响产业应用深化的关键因素。浙江大学团队的该进展,展示了我国在智能系统可信计算方向的最新成果,为构建具备自我评估能力的新一代人工智能体系提供了方法支撑。该成果也提示业界:在追求性能提升的同时,更需要补齐智能系统“知道自己是否可靠”的能力,这可能成为下一阶段技术演进的重要方向。