浙大等团队提出CA-TTS框架校准多模态模型置信度，提升视觉推理可靠性

问题——多模态大模型在视觉问答、数学推理、检索等任务中的应用加速落地，但“回答很肯定却未必正确”的情况仍较常见。研究团队在实验中逐步为输入图像增加噪声并同步观察模型表现，发现图像清晰度明显下降后，模型准确率随之降低，但输出置信度变化不大，显示出“信心不随证据变化而调整”的特征。这类“盲目自信”在复杂场景中可能放大误判风险，尤其当模型用于辅助决策、内容审核或工程运维等需要谨慎判断的任务时，问题更为突出。原因——从机理上看，多模态模型往往在大规模数据上形成较强的语言先验与模式记忆。当视觉证据退化时，模型可能更依赖“看起来像答案”的文本推断，而不是对图像进行充分辨识与核验。此外，现有不少方法默认模型已经有效利用视觉信息，主要在推理策略或采样规模上优化，却相对忽略了一个更前置的问题：模型能否对“看得清还是看不清”做出与证据匹配的自我评估。若置信度不能真实反映感知质量变化，就会导致推理阶段的资源分配失衡——该复核时没有复核，不该下结论时却给出高强度判断。影响——研究团队提出的CA-TTS（Confidence-Aware Test-Time Scaling）框架，将“置信度是否可信”作为提升推理可靠性的关键变量：先让模型对证据强弱更敏感，再让这种更贴近事实的置信度在推理过程中发挥调度作用。实验显示，CA-TTS在四个主流视觉推理基准上整体超过既有最优方案，平均提升8.8%。在Math-Vision任务上，模型准确率由基线的23.0%提升至42.4%，提升幅度明显。除准确率外，该框架在扩展效率上也表现突出：在同等或可控的推理开销下，通过更合理的计算分配获得更高收益，体现出较强的工程落地价值。对策——CA-TTS的技术路径分两步推进。第一步是置信度校准：引入置信度驱动的强化学习模块，通过“感知敏感性奖励”和“校准一致性奖励”两类机制，引导模型在视觉信息充分与不足的不同条件下，给出与证据强度相匹配的置信判断，避免在看不清时仍输出高置信结论。第二步是推理阶段的资源调度：将校准后的置信度转化为可执行的推理信号，形成三段式协同闭环——其一，采用置信度加权的一致性策略生成候选答案，减轻简单多数投票可能带来的系统性偏差；其二，当初步结果置信度不足时触发反思式再推理，提高复杂样例的纠错概率；其三，在视觉层面对答案进行核验，更降低“语言推断压过视觉证据”的风险。整体设计强调“先感知、再推理、后验证”，让推理链条具备一定的自我纠偏能力。前景——业内普遍认为，多模态模型将走向更广泛的行业应用，可靠性、可解释性与风险可控性将成为重要评价维度。CA-TTS的思路对后续研究具有启发意义：与其单纯增加推理步数，不如先解决“置信度是否可信”“感知是否到位”等基础问题，再进行有针对性的扩展与复核。面向未来，该框架有望在需要审慎输出的场景发挥更大作用，例如低质量图像识别、复杂图表理解、跨模态检索核验等方向。同时，如何在不同任务与不同模型结构中稳定实现置信度校准、如何在效率与可靠性之间取得更优平衡，也将成为后续工程化落地与标准化评测的重要议题。

随着人工智能技术持续深入发展，系统的可靠性与安全性正成为影响产业应用深化的关键因素。浙江大学团队的该进展，展示了我国在智能系统可信计算方向的最新成果，为构建具备自我评估能力的新一代人工智能体系提供了方法支撑。该成果也提示业界：在追求性能提升的同时，更需要补齐智能系统“知道自己是否可靠”的能力，这可能成为下一阶段技术演进的重要方向。