OpenAI的o1模型推理时蹦出中文 专家猜:AI可能只想用最高效的语言来思考

赵雨荷
o1模型为何在推理时使用中文或其他语言来思考尚不得而知,但有专家猜测,原因可能是模型在训练时使用了中文或其他语言的数据标注,也有可能是模型倾向于自行选择它们认为最能有效实现其目标的语言,或者出现了幻觉。

媒体报道,在OpenAI 发布其首个“推理”AI模型o1不久后,有用户注意到一种奇怪的现象:即使用户是用英语提问,这一模型有时会在回答问题时突然“转而用”中文、波斯语或其他语言“思考”。

例如,当被问及“单词‘strawberry’中有多少个‘R’?”时,o1会开始其“推理”过程,通过一系列推理步骤得出答案。如果问题是用英语写的o1的最终回答会是英语,但在得出结论之前,它可能会在某些步骤中使用其他语言。

一位Reddit用户表示,“o1在中途随机地开始用中文思考。” 另一位用户在X发文询问:“为什么o1会随机开始用中文思考?整段对话(超过5条信息)都没有使用中文。”

OpenAI尚未对o1的这种奇怪行为作出解释,也没有正式承认这一现象。AI专家对此也没有明确答案,但他们提出了一些猜测。

使用中文数据标注引起?

包括 Hugging Face 的首席执行官 Clément Delangue等人表示,像o1这样的推理模型接受了大量包含中文字符的数据训练。谷歌DeepMind的研究员Ted Xiao声称,包括OpenAI在内的一些公司使用中国的第三方数据标注服务,而o1转向中文可能是“推理过程中受到中文语言影响”的一个例子。

Ted Xiao在X上写道:

“OpenAI和Anthropic等实验室利用[第三方]数据标注服务,为科学、数学和编程领域的高水平推理数据提供支持,而许多数据提供商都位于中国。”

在AI训练领域,标注(Labels,也称为标签或注解)在训练过程中帮助模型理解和解释数据。例如,用于训练图像识别模型的标注可能包括为对象周围添加标记,或为图像中的每个人、地点或物体提供描述。

研究表明,带有偏见的标注可能会导致带有偏见的模型。例如,普通标注员更可能将非标准英语(如美国黑人英语,AAVE)标记为“不健康”(toxic)语言,这导致基于这些标注训练的AI毒性检测器更倾向于认为AAVE 是“不健康”的。

不过,也有一些专家并不认同“中文数据标注”的猜测。他们指出,o1同样可能在解决问题时切换到印地语、泰语或其他语言。

AI只想使用最高效的语言来思考?

另一种观点认为,o1和其他推理模型可能只是使用了它们认为最能有效实现其目标的语言(或出现了幻觉)

阿尔伯塔大学的助理教授、AI 研究员Matthew Guzdial在接受TechCrunch采访时说,“模型并不知道语言是什么,也不知道语言之间有区别。对它来说,这些只是文本而已。”

实际上,模型并不直接处理单词,而是处理“标记”(tokens)。标记可以是单词(例如“fantastic”),也可以是音节(例如“fan”、“tas”和“tic”),甚至是单词中的单个字符(例如“f”、“a”、“n”、“t”、“a”、“s”、“t”、“i”、“c”)。

像标注一样,标记也可能引入偏见。例如,许多从单词到标记的转换器假设句子中的空格表示一个新单词的开始,而实际上并非所有语言都使用空格来分隔单词。

Hugging Face的软件工程师Tiezhen Wang赞同这一观点,认为推理模型的语言不一致性可能源于模型在训练期间与特定语言建立的某些关联。

“通过接纳每一种语言的细微差别,我们扩展了模型的世界观,使模型能够全面学习人类知识。例如,我喜欢用中文做数学,因为每个数字只有一个音节,这让计算更简洁高效。但在讨论诸如‘无意识偏见’之类的话题时,我会自动切换到英语,因为我最初就是通过英语学习和吸收这些概念的。”

AI模型是概率机器,通过大量示例的训练学习模式,并据此作出预测。然而,非盈利组织艾伦人工智能研究所的研究科学家Luca Soldaini警告说,“我们无法确定模型内部的运行逻辑。对已经部署的AI系统进行这类观察,由于其高度不透明性,是无法支持任何结论的。这也说明了为什么在构建AI系统时保持透明性至关重要。”

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章