多轮对话可靠性骤降国际研究揭示大语言模型系统性缺陷

一、问题：多轮对话暴露模型系统性短板据美国科技媒体Windows Central报道，微软研究院与企业软件公司赛富时近期联合发布了一项大规模实证研究；研究人员对15个大语言模型系统进行了超过20万次模拟对话测试，评估它们在不同交互场景下的表现差异，受测模型均为当前业界主流的顶尖系统。

对话机器人在多轮交流中"迷失会话"，并不意味着技术本身失去价值，而是在提醒行业：评测和产品开发必须回归真实使用场景；可靠性与能力同样重要，只有以更严格的验证、更清晰的边界和更完善的工程体系作为支撑，技术进步才能真正转化为可持续的生产力。

多轮对话可靠性骤降 国际研究揭示大语言模型系统性缺陷