【会议纪要】GPT-4o无“创新”？他们已在用AI智能助手赚大钱!

2024-05-17 08:14

601

语音助手AI化，钢铁侠的“贾维斯”变成现实

以下是5月15日华福证券研究所AI互联网首席杨晓峰的大咖会客厅纪要：GPT-4o无“创新”？他们已在用AI语音助手赚大钱!

核心观点：
1、目前已经可以实际体会到GPT-4o的技术优化与低延迟：模型可以直接将语音作为输入，并直接输出语音，省去了中间的文本转换步骤，随着更先进的芯片使用，推理速度也有所加快。

2、OpenAI的用户数已达到一个关键节点，通过免费体验GPT-4o，如果用户觉得效果好，使用频率增高，最终可能会成为会员。是否会进一步免费的核心问题在于商业化策略，如果拥有更先进的模型，OpenAI可能会逐步将GPT4作为一个免费项目供大家使用。

3、国产模型在采用MOE架构并输入大量优质中文数据后，能力提升非常快。成本主要取决于模型的参数量，国产模型价格的下降比海外更为彻底。

4、国内市场上优秀的大模型：①许多用户正在重复使用Kimi，这表明它正处于自然加速增长的过程中。②豆包模型的竞争力之所以强大，是因为字节跳动内部有众多团队在开发产品，豆包模型的加持可能会催生许多新应用。③ 测试中表现较好的模型还有混元模型，它在感知效果上是目前最强的。

5、AI应用的三个阶段：AI应用的发展包括基础模型研发、产品经理设计场景开发产品、以及广告资源推广。无论公司大小，关键在于产品能力能否获得云厂商的算力支持。

6、AI技术的融入预示着将重构现有的应用和服务模式，当大模型能与操作系统进行融合，可以调动设备上的App，就可能引导用户流向新的平台，带来流量的重构。

OpenAI、谷歌、字节跳动这三家的最新发布的产品都有哪些亮点？

近期，众多公司密集举办发布会，核心原因在于AI语音助手市场的快速崛起，成为一个入口级别的赛道，各家公司竞相争夺。

首先，GPT-4o希望能够与众多硬件厂商合作，使其成为众多端口的核心语音助手入口。其次，谷歌在昨天的发布会上推出了Astra产品，它也是一个语音助手，并且能够实现多模态功能。此外，字节跳动的豆包产品也具有类似功能，用户可以按住后打电话或与AI进行连续对话。

在品牌曝光和终端接入方面，各家公司都展现出强烈的意愿。例如，GPT-4o在整个推广过程中积极拥抱苹果，展示时使用iPhone手机，同时在电脑客户端上，已经有大约150兆的客户端供苹果电脑Mac使用。

谷歌也表现出类似的策略，昨天的发布会全程使用Gemini，希望在多个终端展示Gemini的能力，推动其产品在智能手机等智能终端上的使用。字节跳动的豆包产品同样如此。

显然，大家都希望通过展示自家模型的能力，吸引更多终端接入，从而显著提升用户量。例如，如果GPT-4o的产品能够接入更多智能手机，其用户量有望实现大幅增长。

最近的发布会的密集也显示出大家对于未来自身模型能否成为重要入口的重视，其中语音助手就是一个非常重要的渠道。

初步体验下来您觉得GPT-4o最显著的一个亮点是什么？

初步的感受是，GPT-4o能够让更多用户群体使用到这个产品。以往，用户可能需要成为Plus会员才能使用一些相对高级的功能。而现在，4o已经可以使用一些如图像分析的功能，这些在之前的版本中无法使用。

另外，4o的反应速度明显变快。尽管目前还无法体验视频中演示的实时交互产品，但拍照、识图、语音交流等功能已经可以后台通过GPT-4o模型来实现。

功能上可能没有太大变化，但在接入新模型后，可以明显感觉到反应速度的提升，因为模型经过了优化。过去可能会显示一个旋转的图标等待较长时间，但现在等待时间大幅缩短。

如此令人震惊的低延迟是如何做到的呢？

实际上，模型的优化表现在几个方面。例如，以往模型可能被要求生成长达1000字甚至2000字的小说，但在GPT-4o模型下，系统可能在前端对处理文本的长度进行了限制。这意味着当需要模型回答长文本与短文本时，速度会有显著的提升。这不仅是一项工程上的改进，同时也节约了整个处理链路的过程。

在过去，模型在处理语音到文字再到语音的转换时，会经历先将语音转成文字、文字推理模型、再将文字转成语音的过程，这个过程中包含了两次转换。而在新的模型下，模型可以直接将语音作为输入，并直接输出语音，省去了中间的文本转换步骤，显著提高了时效性。

以前在使用智能音箱连接GPT API进行测试时，会发现每次说话后，系统会多出几个字，这可能是因为预设的声音被强录进来。过去的语音问题在于模型未针对语音端进行优化，导致速度较慢。经过工程化优化后，速度有了显著提升。

此外，随着更先进的芯片使用，推理速度也有所加快，这也是目前反应速度快的原因之一。

海外科技巨头密集、快速的技术更新背景下，国产大模型能追赶上吗？

实际上，国产模型的进步速度非常快，正在逐渐接近GPT4。

当然，网上的许多测评是基于公开的题库，而这些题库很可能已经被模型训练过。因此，我们更关注用户端的需求。例如，我们可以通过向模型提出一些以往版本无法解决的问题，从用户的视角来评估模型的实际能力。

从这个角度来看，我们明显地感知到国内模型的进步速度非常快。尽管目前可能还未能完全达到GPT4的全精度水平，但基本上已经能与Claude-3、Mistral等相媲美。

举例来说，最近备受关注的Llama模型，拥有700亿参数。在测试中我们发现，在10道数学题中，腾讯的模型能够答对6道，而Llama700亿参数的模型只能答对2道。

这表明，国产模型在采用MOE架构并输入大量优质中文数据后，能力提升非常快。这也是为什么海外模型需要加快产品发布的速度。在开源的背景下，公司之间的竞争完全取决于各自的勤奋度和执行力。

GPT-4o本质上是一个更适合用于语音助手或助手入口产品的模型。它与过去的模型相比，核心区别在于整个链路的改变和训练方式的不同。GPT-4o不是一个简单的拼接模型，而是一个混合模型。这意味着，过去的模型可能需要先将图像信息转化为文字，然后再用文本模型进行处理。而GPT-4o则是将音频、视觉图像和文本一起进行训练，这可以理解为在拼接模型的基础上进行了模型训练的优化。据了解，国内已有公司开始采用类似的模型进行开发。

OpenAI抢占的是一个时间点，即这个功能先推出，有可能先与一些厂商进行合作。

您比较看好哪几家国内大模型的发展呢？

月之暗面最近推出了许多插件，通过提供多种工具提高了用户留存率，因为这些工具的使用增加了用户使用频率。例如，用户可能直接使用Kimi的工具包来制作AI PPT或其他内容，而不是仅将Kimi作为搜索引擎使用。目前，许多用户正在重复使用Kimi，这表明它正处于自然加速增长的过程中，我非常看好这个赛道。

OpenAI在发布GPT-4o之前，原本计划推出AI搜索功能，因为AI搜索的用户群非常大。以海外市场为例，谷歌的日活跃搜索量达到了25至30亿。国内市场也对这一赛道仍然持乐观态度。

国内许多模型具有显著优势。以豆包模型为例，其竞争力之所以强大，是因为字节跳动内部有众多团队在开发产品，豆包模型的加持可能会催生许多新应用。因此，字节跳动的产品我也是相对看好的。

另一方面，阿里巴巴在投资方面表现出色。此前，阿里巴巴投资了月之暗面和MINI Max等公司，并利用其云计算优势，预计在这些公司中可能会出现许多新兴企业。

测试中表现较好的模型还有混元模型，它在感知效果上是目前最强的。混元模型的优势在于，它较早地采用了MOE架构，并且拥有大量数据优势。例如，当在混元中搜索自己的名字时，可以迅速找到相关信息，说明混元在数据方面具有较大优势。

过去，微信作为一个超级入口，拥有众多小程序。目前，人们期待AI手机未来能够打开更多应用。在这种情况下，小程序中的众多应用可能会出现较大机会。因此，混元模型未来在某个生态中可能会有较大的爆发。

在这个阶段，许多公司的模型都有很大的机会。接下来，就要看各家公司在拥有模型后能够开发出什么样的产品，以及他们拥有多少资源进行推广。

OpenAI一直在强调“免费”，它的初衷是就真的如OpenAI所述说是希望更多的用户都可以享受到 AI 这个便利吗？国内的大模型付费的和收费的情况如何呢？

OpenAI的用户数已达到一个关键节点，其日活跃用户数接近一个亿。为了进入下一个增长阶段，需要扩大用户群体。目前，OpenAI提供的GPT-4o使用是有限额的，这意味着在算力相对紧缺时，会优先服务会员用户。

这种限额使用的方式，实际上是在提供一定机会让用户体验GPT4的功能，尤其是那些过去使用3.5版本且没有付费意愿的用户。通过免费体验GPT-4o，如果用户觉得效果好，使用频率增高，最终可能会成为会员。

OpenAI的这种免费策略相对以往有所不同，其目的是希望用户能够成为更高频次的用户。在用户使用次数较少的情况下，有可能转化为会员。因此，这种免费策略也是一种商业化策略，旨在推广产品并教育用户使用GPT4的功能，并利用算力的闲置时段，为未来智能终端产品的普及打下基础。

英伟达的GB200芯片推出后，有没有可能实现GPT4 level这个等级产品的全部免费？

核心问题在于商业化策略。如果拥有更先进的模型，OpenAI可能会逐步将GPT 4作为一个免费项目供大家使用。目前的情况将取决于后续的发展，包括OpenAI的GPT 5何时发布，以及GPT4在更多场景下的用户使用和转化率。如果转化率效果好，可能会开放给更多人使用这些产品。

产品的迭代类似于过去观察到的趋势，未来会员可能使用GPT5或更强大的模型。因此，GPT4级别的产品免费使用是一个必然的过程，只是免费的比例和时间目前可能尚未完全确定。这本质上是考虑到未来新产品推出的策略。

随着新科技产品的不断推出，旧产品通常会降价，这是一个正常趋势。许多产品在提供免费和付费版本时都遵循这一趋势。以一款美颜工具为例，非会员和会员都可以使用美颜效果，但会员可能享受更多的美化选项，这就需要付费。

如果 GPT4这些海外的大模型免费或者大多数功能免费后，国产大模型的竞争力会降低吗？

随着海外模型价格的下降，国内模型价格也将随之降低。在这一轮降价中，国内模型价格的下降速度甚至超过了海外。目前，成本主要取决于模型的参数量。

以幻方模型为例，其价格大约是两元人民币，处理百万个token。而3.5版本的模型价格大约是14元，GPT4模型则大约是200元。随着模型的进化，参数量可以减少，从而降低推理成本。

以幻方模型为例，其参数量约为200亿，而3.5版本的参数量约为1750亿，价格比大约是七倍。GPT4模型的参数量大约是3.5版本的四倍，因此其成本大约是3.5版本的四倍。据此推算，GPT4模型的合理价格应该在50到60元之间。然而，GPT4模型的API价格最初是200多元，即使现在降低了一半，仍然超过100元。

因此，可以认为国内模型价格的下降比海外更为彻底。

当前背景下，小公司的发展前景如何？是不是可以专注于某一个行业或者某一条赛道的模型会更有优势

AI应用的发展可以分为三个阶段。首先是基础模型的研发，其次是产品经理设计优秀场景并开发AI产品，最后是利用广告资源进行推广。对于小公司而言，进入大赛道并非难事，关键在于产品能力能否获得云厂商的支持。如果产品出色，云厂商愿意合作，甚至可能通过算力资源等形式进行投资，因为对云厂商而言，这种风险相对可控。

在当前背景下，中国公司在工程化能力方面相比海外更具有竞争力。除了OpenAI的模型可能略有领先外，其他公司的模型并没有不可逾越的差距。同时，中国工程师的勤奋程度通常高于海外，因此在许多赛道上，中国公司的竞争力正逐渐超越海外公司。

以AI陪聊为例，中国公司在进入这一领域后，展现出更懂得用户的需求。例如，在陪聊软件中加入剧情，提高用户的沉浸感。因此，在垂直领域，只要更懂用户，海外市场就有很大的机会。尤其是海外竞争对手并没有想象中那么强大，国内公司的机遇非常大。

总的来说，只要拥有独立的产品能力，无论是国内还是海外，都有很大的机会。

GPT-4o它是一个很强的多模态加低延迟，那留给开发者的想象空间很大，您觉得会再次带动一波应用潮吗？

AI语音助手作为一种入口级产品，有潜力带来广泛的智能终端应用。例如，如果AI眼镜配备了智能语音助手，用户可以在任何地方进行交互。这解决了以往需要先拍照再分析图像的问题，现在可以实现随时启动和使用，这可能极大提高AI应用的渗透率。

如果每个手机都接入了类似GPT-4o这样的产品，便携性和应用覆盖率将非常高。这将催生许多独立应用，比如陪伴聊天场景和教育场景， AI可以实时解答问题。

AI语音助手的另一个应用是在办公过程中，如果AI能够实时观察并理解用户在电脑上的所有办公信息，它可以随时提供帮助。手机端也将实现类似的功能，AI助理能够实时理解用户界面的内容，从而大幅提升效率和应用场景。

这些产品的发布具有颠覆性，也是大厂竞争激烈的原因。AI语音助手结合语音和视觉功能后，其作为助手的入口能力非常强，因此许多巨头在这个时期密集发布产品。

对于创业型公司而言，这也是一个巨大的机会。以AI教育为例，过去教学生写作业可能需要拍照后再解答，而现在可以实时盯着题目，随时打断并交流，这显著提高了教育的效果。因此，这个赛道未来的机会相对较多。

您个人使用下来觉得国内哪些模型做得还不错？

目前国内已有表现良好的语音助手，即豆包。用户可以打开豆包应用，体验其电话功能，该功能的表现十分显著。与过去的许多语音助手相比，豆包的对话更为自然，语气自然化，能够达到良好的效果。此外，豆包还能记忆用户过去交谈过的话题。

豆包在工程化方面表现出色，与GPT4等以往产品相比，交流更加顺畅，显示出其在工程化能力上的显著提升。目前，豆包主要在语音交流方面表现出色，尚未加入视觉控制功能。可以预期，一旦加入视觉控制，其能力将更上一层楼。

AI 在游戏和教育领域还可能会有哪些新突破？

游戏玩法本质上是简单的。例如，许多游戏玩家喜欢与主播一起玩游戏，但主播的数量是有限的，每次只能与少数人互动。如果能够将主播的风格和操作习惯通过AI融入游戏中，玩家将会感觉就像与主播一起玩游戏，这将是一个非常愉快的体验。

此外，如果NPC（非玩家角色）具备AI交流功能，玩家在游戏世界的沉浸感将极大增强。因此，AI对未来开放世界游戏的影响将是巨大的颠覆。

在教育领域，AI的影响尤为明显。例如，在展示过程中可以看到，使用手机就能教授儿童学习各种科目，尤其是数学题、语文题和英语题。过去，数学题对模型能力的考验最大，但现在利用大型模型进行课程辅导是完全可行的。因此，游戏和教育这两个赛道的未来发展潜力非常强大。

苹果与OpenAI 的合作会引起新的换机潮吗？

确实有这种可能性，因为这次GPT-4o是在iPhone上展示的。如果iPhone上的效果能够达到预期，很多人更换手机的动力将会很强，因为这将显著提高效率。

例如，在路演过程中，以往需要查看文档以找到知识点，而未来如果有云模型支持，可以直接询问模型某个数据，无需打开手机即可获得信息。此外，预订机票等以往觉得繁琐的筛选过程，随着模型能够接入应用，可以直接调取最新的航班信息。

谷歌也曾展示过一项功能，即如果邮箱中邮件众多，用户可以请求模型帮助整理与OpenAI的所有往来邮件，并查看最新的邮件及是否需要回复。由于Gmail的所有API数据可以提供给本地的AI模型，这种效率提升是非常显著的。

同样，寻找照片的体验也将得到改善。过去，要找到几年前拍摄的特定照片，可能需要在大量照片中翻找。现在，随着模型的接入，用户可以直接请求模型筛选出特定照片，大大节约了时间。

因此，如果AI手机能够实现这些功能，无疑将大幅提升效率。这将完全取决于效果是否令人满意，如果效果好，人们更换手机的需求将会增加。从上述功能来看，已经可以预见到这些功能将大大节省时间，从这个角度来看，市场需求是非常大的。

用户可能不再单独使用特定应用，而是通过GPT等AI接口进行操作。这种变化将带来什么深远影响？

AI技术的融入预示着将重构现有的应用和服务模式，这也是为什么OpenAI等公司要与操作系统（OS）等层面进行合作的原因。如果一个手机上只安装了OpenAI的GPT应用，而该应用没有权限启动其他外卖软件，那么它的功能就会受到限制。但如果GPT的功能集成在操作系统内，那么操作系统就能够启动许多应用程序。

在这种情况下，如果某个外卖平台不愿意合作，操作系统可以转而与愿意合作的其他市场份额较小的公司合作。未来，愿意与这个终端入口合作的平台可能会获得更多的流量。因此，语音助手的控制权可能会引导用户流向新的平台，带来流量的重构。

在这种背景下，如果公司能够积极拥抱AI入口，用户在进行购买时可能会优先选择与AI集成的平台，这给了许多公司接入大型模型的巨大动力。如果GPT作为一个独立的应用存在，没有整个手机的权限，它就无法打开其他外卖平台，从而缺乏竞争力。

相比之下，微信等拥有小程序生态系统的应用可能会更有竞争力，因为它们可以成为接入各种服务的入口。因此，是否拥有整个生态系统的接入能力是关键。未来的变化将取决于公司是否能够处于生态核心位置的能力。

OpenAI 与苹果合作，核心竞争力是苹果的这些大量的用户，还是科技巨头的核心技术？

未来竞争的核心在于效果。目前，如果OpenAI在模型运营方面领先，且iPhone的配合度较高，其应用生态的效果能与iPhone相匹配，那么其竞争力将非常强。

优势的突出与否取决于一个综合状态，即优秀的模型驱动优秀的应用，效果才会好。即便模型再好，如果支持力度不足，效果也会受影响。这需要操作系统厂商的配合。

例如，如果模型已经知道要执行的任务，但操作系统中的应用无法打开，那么效果就会大打折扣。相反，如果模型效果良好，操作系统中的应用响应迅速并经过优化，整个过程将非常流畅。

在这种背景下，产品的效果将非常明显。因此，操作系统和模型的合作效果决定了一切。iPhone在iOS系统中的优势，加上OpenAI在大型模型方面的优势，两者结合后的体验效果将非常出色。

当然，定价也是一个重要因素。如果价格过高，即使效果再好，也可能有价格相对便宜的产品出现。因此，产品的价位和达到的效果是核心因素。

这种合作对未来具有重要的指导意义。手机可以实现的功能，未来在智能终端，如智能眼镜和智能耳机上，也将有巨大的想象空间。因此，这次合作对未来的发展可能带来广阔的想象空间。

本期大咖会客厅由嘉盛集团赞助播出，关注嘉盛集团官方微信公众号，把握全球一手资讯要闻！