“功能最强、成本偏低”!OpenAI发布GPT-4o mini 入局小模型竞争

赵雨荷
GPT-4o mini成本比GPT-3.5 Turbo便宜超过60%,聊天表现优于Google的Gemini Flash和Anthropic的Claude Haiku。该模型从周四起向ChatGPT的免费用户、ChatGPT Plus和团队订阅用户开放,并将在下周向ChatGPT企业用户开放。OpenAI计划今后整合图像、视频、音频到这个模型中。

OpenAI美东时间周四推出“GPT-4o mini”,入局“小而精”AI模型竞争,称这款新模型是“功能最强、成本偏低的模型”,计划今后整合图像、视频、音频到这个模型中。

比GPT-3.5 Turbo便宜超过60% 聊天表现优于竞品

该公司表示,GPT-4o mini从周四起向ChatGPT的免费用户、ChatGPT Plus和团队订阅用户开放,并将在下周向ChatGPT企业用户开放。GPT-4o mini将取代ChatGPT中的旧模型GPT-3.5 Turbo。OpenAI表示,GPT-4o mini的成本为每百万输入标记(token)15美分和每百万输出标记60美分,比GPT-3.5 Turbo便宜超过60%。

该公司还表示,新模型目前在聊天偏好上表现优于GPT-4模型,并在大规模多任务语言理解(MMLU)测试中获得了82%的得分。媒体报道,MMLU是一种用于评估语言模型能力的文本智能和推理基准。更高的MMLU得分表明它可以在各种领域中更好地理解和使用语言,增强其在现实世界中的应用。

根据OpenAI的数据,GPT-4o mini模型的得分为82%,比另外两款低成本竞品更高,Google的Gemini Flash得分为77.9%,Anthropic的Claude Haiku得分为73.8%。

而在更大模型中,GPT-3.5在这项测试中的得分为70%,GPT-4o得分为88.7%,而Google声称其Gemini Ultra取得了有史以来最高的90%得分。

分析认为,较小的语言模型需要较少的计算能力运行,使其成为资源有限的公司部署生成式AI的更实惠的选择。

此外,这个新的轻量化模型还将在API中支持文本和视觉功能,OpenAI表示,它很快就会处理所有多模态输入和输出,如视频和音频。拥有这些功能后,这可能会像更强大的虚拟助手一样,能够理解你的旅行行程并提出建议。然而,该模型目前只能主要用于简单任务。

“小而精”AI模型竞争激烈 OpenAI最后入局

媒体报道,由微软支持的OpenAI的估值已超过800亿美元,虽然在生成式AI市场仍然占据领头羊地位,但该公司面临的竞争压力已经越来越大。OpenAI还需要找到赚钱的方式,因为该公司在处理器和基础设施上花费了大量资金来构建和训练其模型。

然而,不少公司无法负担大型、更昂贵的模型,因此轻量化且廉价的模型可能更受欢迎。在此之前,许多开发人员会选择Claude 3 Haiku或Gemini 1.5 Flash,而不是支付运行最强大模型所需的高昂计算成本。例如,一个较小的模型可能最适合自动化处理高量、基础任务,而一个较大的模型则可能处理更复杂的工作。一些开发人员可能希望在一个应用程序中同时使用这两种模型。

OpenAI的API产品负责人Olivier Godement在接受媒体采访时解释了为何该公司未能更早推出“小而精”的AI模型,他说,这纯粹是“优先级”的问题,因为OpenAI专注于创建更大、更好的模型,如GPT-4,这需要大量的人力和计算资源。随着时间的推移,OpenAI注意到开发人员越来越渴望使用较小的模型,因此公司决定现在是投入资源开发GPT-4o Mini的时机。

“我们的使命是使最前沿技术、构建最强大、最有用的应用程序,我们当然希望继续做前沿模型,推动技术进步,”OpenAI的API产品负责人Olivier Godement在接受媒体采访时说。“但我们也希望拥有最好的小模型,我认为它会非常受欢迎。”

“我认为GPT-4o Mini真正体现了OpenAI让AI更加普及的使命。如果我们希望AI惠及世界的每一个角落,每一个行业,每一个应用,我们必须让AI更加实惠。”OpenAI的API平台产品负责人Olivier Godement对媒体表示。

GPT-4o mini能帮助员工专心

Godement表示,过去一周内,一些开发人员已经在试用这个模型。

OpenAI让金融科技初创公司Ramp测试了这款模型,使用GPT-4o Mini构建了一个提取收据上的费用数据的工具。因此,用户可以上传收据照片,模型会为他们整理数据。电子邮件客户端Superhuman也测试了GPT-4o Mini,并用它创建了一个自动建议邮件回复的功能。

最初,GPT-4o mini将能够处理和生成文本和图像。最终版本完成后,OpenAI表示它将能够处理其他类型的内容。

OpenAI还表示,GPT-4o mini是该公司首个使用其新安全策略“指令层级”的AI模型。这种方法的目的是使AI系统优先处理某些指令——例如来自公司的指令——以使人们更难让工具做不该做的事情。

分析认为,GPT-4o mini模型是OpenAI致力于“多模态性”的一部分,即提供广泛类型的AI生成媒体(如文本、图像、音频和视频)在一个工具:ChatGPT中。

去年,OpenAI首席运营官Brad Lightcap告诉媒体:

“世界是多模态的。如果你考虑我们作为人类处理和参与世界的方式,我们看见东西,听到东西,说话——世界不仅仅是文本。因此,对我们来说,只有文本和代码作为单一模态、单一接口,感觉总是不完整的,因为这些模型的强大能力和它们能做的事情远远不止于此。”

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章