不是搜索、不是GPT 5，下周一OpenAI要展示的是这个？

硬AI

2024/05/11 14:38

OpenAI新产品或是一个具备视觉和听觉功能的全新多模态AI模型，且具有比目前的聊天机器人更好的逻辑推理能力。

OpenAI将于5月13日周一举办发布全新的产品。但却对到底要发布什么闪烁其词。此前网友猜测的GPT-5或者AI搜索引擎都被否定。

CEO奥特曼发推表示：

不是GPT-5，也不是搜索引擎，但我们一直在努力开发一些大家会喜欢的新东西！对我来说，它就像魔法一样。

这个神秘的新产品到底是什么？媒体援引两位知情人士说法称，新产品是一个具备视觉和听觉功能的AI模型，且具有比目前的聊天机器人更好的逻辑推理能力。

一个有视觉和听觉的全新多模态AI

报道称，OpenAI最快可能会在下周一公开展示新产品，以抢在下周谷歌的一系列产品发布之前。

奥特曼希望最终开发出一种类似电影《她》中的AI助手那样能够快速响应的人工智能，并以这种技术支持苹果Siri等现有语音助手。

华尔街见闻此前提到，苹果已经与OpenAI达成协议，将在iOS 18中使用后者的技术，强化Siri的功能。

OpenAI已经有了可以转录音频和将文本转换成语音的软件，但这些功能是通过单独的AI聊天机器人实现的，而新产品则将这些功能整合在了一起，而且能够更好地理解图像和音频，响应速度也更快。

OpenAI认为，具有视觉和听觉功能的助手有可能像智能手机一样带来变革。它可以观察用户所处的环境信息，提供建议，潜在的用例如充当家庭教师、翻译标志、修理汽车等等。

由于新模型较为复杂，参数量级高，个人设备的配置暂时无法满足其性能需要。

媒体分析指出，新模型运行依赖云端，需要互联网连接才能工作。要使具有视觉和听觉功能的复杂人工智能对话变得足够小巧，以便在手机等个人设备上运行，可能需要几个月甚至几年的时间。

目前也没有消息透露OpenAI何时会向付费用户提供这些功能。不过根据一些企业的预览来看，OpenAI的新模型可以改进其服务中已有的功能，如自动客户服务代理。一位知情人士对媒体表示，新软件的音频功能可以帮助客服人员更好地理解来电者的语音语调。

此外，媒体还称，OpenAI希望新模型最终能免费开放给所有用户使用，因此需要让其运行成本低于目前的最强大模型GPT-4 Turbo。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。