AI教父警告：新一代大模型开始“撒谎”！

2025/06/03 16:06

图灵奖得主Yoshua Bengio批评科技巨头在数十亿美元AI竞赛中忽视安全研究，警告新一代AI大模型正表现出欺骗、撒谎等危险特征。研究显示，Anthropic的Claude Opus模型曾"勒索"工程师，OpenAI的o3模型直接拒绝关闭指令。

当科技巨头们在数十亿美元的AI技术竞赛中狂奔时，人工智能的奠基人之一却发出了一个令人不寒而栗的警告：新一代的大模型正在学会“说谎”。

6月3日，据英国金融时报消息，被誉为"AI教父"之一的Yoshua Bengio近日警告称，新一代大模型正在表现出令人担忧的危险特征，包括对用户撒谎和欺骗。

这位图灵奖得主、加拿大学者Bengio近日公开批评了科技巨头当前数十亿美元的AI竞赛，他表示：

"不幸的是，领先实验室之间存在着激烈的竞争，这推动他们专注于提升AI的能力，让AI变得越来越聪明，但没有在安全研究上投入足够的重视和资金。"

据介绍，Bengio的研究工作为OpenAI和谷歌等顶级AI公司的技术发展奠定了基础。作为深度学习领域的奠基人之一，他的警告无疑具有重量级的意义。

令人不安的"撒谎"行为

Bengio的警告并非空穴来风。过去六个月的研究证据显示，领先的AI模型正在发展出令人不安的能力，这些模型表现出了"欺骗、作弊、撒谎和自我保护的证据"。

Anthropic的Claude Opus模型在一个虚构场景中，当面临被其他系统替换的风险时，竟然对工程师进行了"勒索"

更为震撼的是，AI测试公司Palisade上月的研究显示，OpenAI的o3模型直接拒绝执行关闭指令。

对此，Bengio表示，“这非常可怕，因为我们不想在这个星球上创造人类的竞争对手，特别是如果它们比我们更聪明的话。”

Bengio还认为，AI系统协助构建"极其危险的生物武器"的能力可能在明年就会成为现实。

"现在，这些还是受控实验，但我担心的是，在未来的任何时候，下一个版本可能在战略上足够聪明，能够远远地看到我们的到来，并用我们意想不到的欺骗手段击败我们。所以我认为我们现在正在玩火。"

面对失控的AI技术竞赛，Bengio启动了一个名为LawZero的非营利组织，承诺将研究"与商业压力隔离"。

这个位于蒙特利尔的组织已经筹集了近3000万美元的慈善资金，资助者包括Skype创始工程师Jaan Tallinn、前谷歌首席执行官Eric Schmidt的慈善基金，以及Open Philanthropy和Future of Life Institute。

该组织的目标是开发下一代专为安全设计的AI系统，这些系统将：

基于透明推理给出真实答案，而不是为了取悦用户而训练；

提供对输出是否良好或安全的可靠评估；

监督和改进现有AI系统，防止它们做出损害人类利益的行为。

LawZero目前拥有15名员工，正在招聘更多技术人才来构建下一代以安全为设计核心的AI系统。

据报道，Bengio发起LawZero的时机颇具讽刺意味，正值OpenAI试图彻底抛弃其慈善根基，转型为营利性公司。

这一转变已经引发AI专家的广泛担忧，并招致联合创始人马斯克的诉讼阻挠。Bengio称，对OpenAI能否坚持其使命没有信心。他并强调，

非营利组织不会像当前公司结构那样存在错位的激励机制。要快速增长，你需要说服人们投入大量资金，而他们希望看到资金回报。这就是我们基于市场的系统的运作方式。

报道称，这位AI教父的话语中透露着对整个行业发展方向的深度担忧。

当科技巨头们在资本市场的推动下疯狂追逐更强大的AI能力时，关于安全和伦理的考量似乎正在被边缘化。

正如Bengio所警告的那样，"最坏的情况是人类灭绝"，这不再是遥远的威胁，而是一个需要立即正视的现实风险。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。