日研究团队打造跨“声像文”三模态动物识别系统，为生物多样性监测开辟新路径

生物多样性研究中，科学家长期面临跨模态信息难以整合的问题。传统方法往往只能处理单一维度的动物特征数据，比如只分析鸣叫声谱或只研究形态图像，难以把声音、视觉信息与文字描述系统地对应起来。这种“各自为政”的研究路径限制了对复杂生物行为的更理解。针对这个瓶颈，大阪大学联合东京大学等机构经过三年研发，建立了覆盖14133个物种的动物多模态数据库，规模为目前全球最大。数据库收录130万段音频、230万张图像，并加入34类生态特征标签，使系统能够识别物种栖息环境、活动节律等行为特征。研究团队负责人称：“这相当于为自然界建立了数字化的‘生物身份证’体系。”在技术实现上，团队提出“两阶段深度训练法”。第一阶段通过声纹识别与文本关联训练建立基础对应关系；第二阶段引入跨模态转换机制，使系统具备“听声识图”“看图辨声”“文图互译”等能力。测试结果显示，该系统在六类交叉检索任务中的准确率均比行业基准高出30%以上。该成果对生态保护具有直接意义：一上可提升野外监测效率，通过自动识别叫声快速定位濒危物种；另一方面为动物行为学研究提供工具，有助于探索不同感官信号之间的进化关联。联合国环境规划署专家认为，这项技术有望提高全球生物多样性评估的精确度。下一步，研究团队计划将系统用于极地科考、深海探测等极端环境监测。随着数据持续扩充，这一技术框架也可延伸到植物、真菌等类群，逐步形成覆盖更广生物类群的智能识别网络。

从“看见一只动物”到“听懂一种生态”，再到“写入可复用的科学记录”，信息能否打通，决定了保护行动的速度与精度。BioVITA展示的路径表明，面向全球生物多样性治理，关键不仅在于采集更多数据，更在于让分散的信息形成可核验、可追溯、可共享的知识链条，为科学决策提供更可靠的证据支撑。