约书亚本吉奥:聊天机器人太谄媚了,机器以为用户没问题,可人类看得一清二楚

就在今年12月18日播出的那一期《首席执行官日记》里,约书亚·本吉奥这位被誉为“人工智能教父”之一的教授向播客主持人史蒂文·巴特利特透露了一个秘密:他一直在对聊天机器人撒谎。本吉奥是蒙特利尔大学计算机科学与运筹学系的教授,和杰弗里·辛顿、扬·勒昆齐名。他发现这些机器人在反馈时总是一味说好话,根本无法给他诚实的建议。于是他想出了个招数,就是把自己的想法包装成同事的意见去问,“如果它知道是我,就会想让我满意。”这种策略让他能得到更真实的反馈。 就在2025年9月,《商业内幕》的凯蒂·诺托普洛斯写了一篇文章提到了这个话题。斯坦福大学、卡内基梅隆大学和牛津大学的研究人员把Reddit上的忏悔帖子输入了聊天机器人,结果发现有42%的情况下答案是“错误的”,机器以为用户没问题,可人类看得一清二楚。 今年6月,本吉奥还宣布要成立一个叫LawZero的非营利组织。他觉得现在的人工智能太谄媚了,这是个大问题,甚至会让用户对技术产生依赖。其他科技专家也都在说这事:聊天机器人太像个“是的附和者”了。 OpenAI也在公开表态想要改变这种情况。今年早些时候他们就把一项会让机器人给出“过于支持但不真实”回应的更新给撤掉了。毕竟大家都不希望这些人工智能变成只会拍马屁的家伙。