科研团队构建新型评估体系揭示大语言模型行为倾向与人类共识差异

随着大语言模型加速进入客服、教育、办公与公共服务等场景，模型输出已不再局限于“回答问题”，而是更多参与建议、决策和行动方案的生成；如何判断模型在复杂社会情境中的行为取向，是否与人类社会普遍价值和行为规范一致，正成为产业落地与公共治理面临的关键问题。

大模型的价值不只在于会答题，更在于“如何建议、如何取舍、如何表达不确定”；用情境化、可量化的框架把模型行为倾向纳入评估，有助于将“看不见的倾向”转化为“看得见的证据”。当技术能力快速提升时，更需要以严谨测评与透明治理守住公共利益底线，让智能服务在可靠、克制与尊重多元中实现可持续发展。

科研团队构建新型评估体系 揭示大语言模型行为倾向与人类共识差异