Sam Altman：对于更先进的系统，AI对齐仍然是一个未解决的问题

在2023北京智源大会上，OpenAI联合创始人Sam Altman表示，GPT-4比OpenAI以前的任何模型都更加与人类对齐。不过，对于更先进的系统，对齐仍然是一个未解决的问题，需要新的技术方法，同时增强治理和监督。这方面的研究主要分为扩展性和可解释性两方面。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

一个是可扩展的监督。我们可以尝试使用人工智能系统来协助人类监督其他人工智能系统。例如，我们可以训练一个模型来帮助人类监督发现其他模型的输出中的缺陷。

第二个是解释能力。我们想尝试更好地了解这些模型内部发生了什么。我们最近发表了一篇论文，使用 GPT-4 来解释 GPT-2 中的神经元。在另一篇论文中，我们使用 Model Internals 来检测一个模型何时在说谎。我们还有很长的路要走。我们相信，先进的机器学习技术可以进一步提高我们解释的能力。

最终，我们的目标是训练 AI 系统来帮助进行对齐研究。这种方法的好处在于，它可以随着 AI 的发展速度而扩展。

风险提示及免责条款