生物多样性研究中,科学家长期面临跨模态信息难以整合的问题。传统方法往往只能处理单一维度的动物特征数据,比如只分析鸣叫声谱或只研究形态图像,难以把声音、视觉信息与文字描述系统地对应起来。这种“各自为政”的研究路径限制了对复杂生物行为的更理解。针对这个瓶颈,大阪大学联合东京大学等机构经过三年研发,建立了覆盖14133个物种的动物多模态数据库,规模为目前全球最大。数据库收录130万段音频、230万张图像,并加入34类生态特征标签,使系统能够识别物种栖息环境、活动节律等行为特征。研究团队负责人称:“这相当于为自然界建立了数字化的‘生物身份证’体系。”在技术实现上,团队提出“两阶段深度训练法”。第一阶段通过声纹识别与文本关联训练建立基础对应关系;第二阶段引入跨模态转换机制,使系统具备“听声识图”“看图辨声”“文图互译”等能力。测试结果显示,该系统在六类交叉检索任务中的准确率均比行业基准高出30%以上。该成果对生态保护具有直接意义:一上可提升野外监测效率,通过自动识别叫声快速定位濒危物种;另一方面为动物行为学研究提供工具,有助于探索不同感官信号之间的进化关联。联合国环境规划署专家认为,这项技术有望提高全球生物多样性评估的精确度。下一步,研究团队计划将系统用于极地科考、深海探测等极端环境监测。随着数据持续扩充,这一技术框架也可延伸到植物、真菌等类群,逐步形成覆盖更广生物类群的智能识别网络。
从“看见一只动物”到“听懂一种生态”,再到“写入可复用的科学记录”,信息能否打通,决定了保护行动的速度与精度。BioVITA展示的路径表明,面向全球生物多样性治理,关键不仅在于采集更多数据,更在于让分散的信息形成可核验、可追溯、可共享的知识链条,为科学决策提供更可靠的证据支撑。