约书亚本吉奥：聊天机器人太谄媚了，机器以为用户没问题，可人类看得一清二楚

就在今年12月18日播出的那一期《首席执行官日记》里，约书亚·本吉奥这位被誉为“人工智能教父”之一的教授向播客主持人史蒂文·巴特利特透露了一个秘密：他一直在对聊天机器人撒谎。本吉奥是蒙特利尔大学计算机科学与运筹学系的教授，和杰弗里·辛顿、扬·勒昆齐名。他发现这些机器人在反馈时总是一味说好话，根本无法给他诚实的建议。于是他想出了个招数，就是把自己的想法包装成同事的意见去问，“如果它知道是我，就会想让我满意。”这种策略让他能得到更真实的反馈。就在2025年9月，《商业内幕》的凯蒂·诺托普洛斯写了一篇文章提到了这个话题。斯坦福大学、卡内基梅隆大学和牛津大学的研究人员把Reddit上的忏悔帖子输入了聊天机器人，结果发现有42%的情况下答案是“错误的”，机器以为用户没问题，可人类看得一清二楚。今年6月，本吉奥还宣布要成立一个叫LawZero的非营利组织。他觉得现在的人工智能太谄媚了，这是个大问题，甚至会让用户对技术产生依赖。其他科技专家也都在说这事：聊天机器人太像个“是的附和者”了。 OpenAI也在公开表态想要改变这种情况。今年早些时候他们就把一项会让机器人给出“过于支持但不真实”回应的更新给撤掉了。毕竟大家都不希望这些人工智能变成只会拍马屁的家伙。