大连理工大学突破多模态跨光谱物体识别技术 复杂光照下也能精准识别

(问题)在城市治理、公共安全和智能交通等场景中,目标识别系统往往要在白天、夜晚、逆光、烟雾遮挡等复杂条件下保持稳定。现实中,不同传感器获得的图像光谱差异明显:可见光信息丰富但受光照影响大——近红外在弱光下更稳定——热红外能反映温度分布并在夜间更有优势。如何让算法在不同光谱之间实现“同物同认”,也就是在成像机制不同的情况下仍能判断为同一对象,是多模态识别的关键挑战之一。 (原因)现有方法主要面临两类瓶颈:一是抗背景干扰能力不足。多光谱图像的背景噪声形态差异大,直接融合容易把无关区域一起增强,导致“看得见但认不准”。二是信息利用不充分。为压制噪声,一些方法采用较激进的筛除策略,虽然减少了干扰,却可能把识别所需的细节一并删掉,出现“去噪即丢信息”。此外,多模态并非简单叠加,传感器观测存在互补与错位;如果缺少对跨模态关联的结构化建模,也会限制融合效果。 (影响)针对这些问题,大连理工大学数学科学学院联合浙江大学计算机科学与技术学院、中国电信人工智能研究院等机构提出STMI框架,并在AAAI 2026涉及的论文中系统阐述。该框架不走“二选一”或“硬融合”的路线,而是在抑噪与保真之间取得平衡,以更可控的方式组织多源信息,从而提升跨光谱场景下的识别稳定性。研究在三个公开数据集上验证:在RGBNT201数据集上取得81.2%的平均精度,相比既有最优方法提升1.0个百分点;在更具挑战性的MSVR310数据集上取得64.8%的平均精度,较此前最好结果提升17.8个百分点。结果显示,在模态差异更大、干扰更强条件下,该框架带来的提升更明显。 (对策)从技术路径看,STMI框架通过三项互补机制协同发力。一是引入分割引导的特征调制,对前景与背景进行差异化处理:不通过简单遮挡或硬删除去背景,而是对不同区域进行强弱调节,在压制背景扰动的同时尽量保留可能有效的细节,为后续融合保留信息。二是采用语义令牌重分配策略,将多源特征中分散的信息重新组织,通过更细致的语义抽取与聚合,降低“误删关键证据”的风险,提升特征表征的可用性与一致性。三是引入跨模态超图交互建模,对可见光、近红外、热红外等多源信息之间的关联进行结构化刻画,在更高层面建立互补线索的对应与协同,增强模型在模态差异下的推理能力。同时,研究还改进了图像描述生成方法,加强多视角、多模态信息的一致表达,减少模糊描述带来的不确定性,为跨模态理解与检索等任务提供支撑。 (前景)多模态识别能力的提升,将为智能系统在复杂甚至极端条件下提供更可靠的感知基础。在智能安防领域,夜间或低照度环境下对人员、车辆等目标的稳定识别,有望降低漏检误检,提高联动处置效率;在应急救援与夜间执法中,多源成像设备协同可增强目标发现与确认能力,提升搜救效率与安全性;在智能驾驶与车路协同场景中,跨传感器融合是提高感知冗余与安全边界的重要方向,相关方法有望在复杂天气、隧道出入口等高风险工况下提供更稳健的感知支持。有业内人士认为,随着多源传感器部署成本下降、算力条件改善,跨光谱、多模态协同将从“增强选项”逐步变为“基础能力”;而兼顾抑噪与信息保留的融合框架,可能成为下一阶段技术演进的重要方向。

这项由中国科研团队提出的STMI框架,为跨光谱多模态识别提供了新的思路与验证结果,也显示出我国在有关研究上的持续进展。随着后续工程化与应用落地推进,其有望提升智能设备在复杂环境中的感知与理解能力,并为安防、交通、应急等行业应用提供更扎实的技术支撑。