对于OpenAI新一代模型GPT5，我们能期待什么?

中信证券陈俊云、贾凯方

2024/04/19 11:24

中信证券预计，GPT-5将补齐图像和视频模态，实现跨模态的内容生成和理解，同时在长文本处理和长逻辑推理任务上有望取得突破性进展。

作为当下AI产业瞩目的焦点，GPT-5目前正处于红队测试阶段，我们预计最快今年夏天面世。作为最新一代的大语言模型，GPT-5有望在多模态理解、长文本输入、zero-shot学习等方面树立新的里程碑。GPT-5的升级将是一次多方位的全面迭代，其中多模态能力和支持更长文本输入是最重要的两个方面。同时在视频模态处理和超长文本输入上取得突破，大幅提升模型在复杂认知任务上的表现。我们预计GPT-5将补齐图像和视频模态，实现跨模态的内容生成和理解，同时在长文本处理和长逻辑推理任务上有望取得突破性进展。在模型算法与架构上，预计GPT-5将继续采用MoE架构，参数规模或将达到数百万亿，对训练数据质量和规模的要求也将大幅提高。预计，为补足数据缺口，合成数据在训练集中的占比将持续增加，对合成数据技术也提出了更高的要求。在商业模式上，GPT-5将进一步向AI Agent靠拢，注重与真实应用场景的融合，添加对长任务链应用的支持。此外，预计它将简化面向企业的定制化微调流程，并拓展在内容生成、问答、流程自动化等场景的应用广度和深度。

▍报告缘起：GPT-5红队测试邮件爆出，预计二季度末至三季度推出。

Deep Trading创始人Peleg等人在社交媒体X上透露，GPT-5早已准备就绪，目前正处于选定用户的红队测试阶段，全面评估模型的安全性和可靠性。红队测试旨在邀请外部专家尝试以恶意用户的思路“攻击”并试图找出模型的潜在缺陷和风险点，是大型语言模型发布前的关键一环。通过模拟真实世界的各种异常情况，红队测试可以帮助模型在上线前进一步强化安全性，提高鲁棒性。根据过往测试的经验我们推测，一般此阶段为期3-4个月，预计GPT-5最快今年夏天面世。回顾GPT模型前四代的表现，每一次更新都在性能上实现了全面的提升。GPT-5作为最新一代的大语言模型，有望在多模态理解、长文本输入、zero-shot学习等方面树立新的里程碑。因此，本篇报告将对即将到来的GPT-5的相关更新进行展望，并对随之而来的投资机会提出建议。

▍GPT5能力展望：多模态能力升级，支持长文本输入，开启人机交互新时代。

我们认为GPT-5的升级并不会出现如同GPT-2到GPT-3的基础能力飞跃，但这次迭代将会是一次多方位的全面升级，而其中多模态能力是GPT-5迭代的最重要部分。对于即将到来的GPT-5，我们认为它将补齐图像模态的多模态功能，实现图文互生的能力。此外，在今年年初Sora模型掀起视频多模态处理热潮后，GPT-5可能也会在视频模态上取得一定进展，将来GPT-5在视频理解和生成上的尝试，都将为未来数字世界和物理世界的深度融合铺平道路。除了多模态能力外，文本输入长度也是今年一季度各家模型厂商竞争的另一个关键焦点，较长的文本输入长度是实现复杂长文本处理和长逻辑推理的基础，也是构建能处理复杂任务的AI Agent的必要条件。我们认为GPT-5将在长文本处理和长逻辑推理任务上实现新的突破，刷新这一领域的SOTA（State of the Art）表现。这一能力的提升，将为GPT-5在知识密集型任务中的出色表现提供强有力的支撑。大幅跃升的文本处理能力，结合升级后的多模态理解水平，有望使GPT-5成为迄今为止最强大的通用人工智能系统之一。

▍模型算法&训练：MOE架构支撑Scaling Law延续，合成数据补足当前数据缺口。

回顾去年发布的GPT-4，其采用了MoE(Mixture-of-Experts)架构，以更低的计算成本支持1.8万亿参数规模。MoE的"数据路由"机制让每次前向/后向传播实际使用的参数量大幅减少，这使MoE成为延续大模型性能与参数规模正相关(即Scaling Law)的一条可行且经济的路径。考虑到Scaling Law与数据源的限制，我们预计GPT-5仍将采用MoE架构，参数量可能达GPT-4的10-50倍。而当前可直接获取的高质量文本数据已接近上限。参考GPT-2到GPT-4的迭代速度和Chinchilla定律，我们估算GPT-5级别模型需要60万亿到100万亿tokens训练数据，但全网范围内高质量tokens或许不足50万亿。我们认为，随着模型规模持续扩张，合成数据在训练集中的占比将稳步提高，成为算法创新的重要数据基础。但面对GPT-5这样的超大规模模型，对合成数据的质量、多样性和可靠性也将提出更高要求，亟需数据生成技术取得进一步突破。

▍商业模式更新：应用市场协同垂直场景突破，赋能产业数字化转型。

商业模式更新将会是GPT-5的核心侧重点，虽然我们可能看不到例如连续任务长逻辑推导等任务上的突破，但GPT-5一定会在CoT（Chain of Thoughts）的基础上向AI Agent进一步靠近。这意味着GPT-5将更加注重与现实世界应用场景的深度融合，我们可能会在GPT Store中看到更多长任务链逻辑的应用。除了GPT Store的应用外，我们预计GPT-5还将会在两个方面实现商业性上的突破：

其一，GPT-5将大大简化面向企业级用户的定制化微调流程。得益于其在少样本学习、上下文理解等方面的进步，GPT-5有望通过更少的数据和更简单的微调步骤，快速适配不同行业的特定需求，大幅降低企业的应用门槛和开发成本。

其二，GPT-5将进一步拓展其在内容生成、知识问答、业务流程自动化等场景下的应用深度和广度。

▍风险因素：

AI核心技术发展不及预期风险；科技领域政策监管持续收紧风险；私有数据相关的政策监管风险；全球宏观经济复苏不及预期风险；宏观经济波动导致欧美企业IT支出不及预期风险；AI潜在伦理、道德、用户隐私风险；企业数据泄露、信息安全风险；行业竞争持续加剧风险等。

▍投资策略：

从算力层面看，GPT-5的规模扩张将进一步推高训练和推理阶段对算力的需求。我们预计，GPT-5的参数规模将达到5-10万亿左右，相比GPT-4有数量级的增长。在如此庞大的参数规模下，即使采用了MoE架构，对训练所需算力的需求也将呈现爆发式增长。而在推理端，虽然MoE架构使得每次前向传播所需算力大幅减少，但由于应用场景的增多，GPT-5推理侧的总体算力需求依然可能出现数倍的增长。在数据层面，合成数据被视为解决GPT-5训练数据缺口的重要途径。但要满足GPT-5对训练数据质量、多样性和可靠性的较高要求，数据合成技术仍需持续创新。除算力和数据两条主线外，还有一个值得重点关注的机会在于GPT-5的商业化进程或将催生软硬一体化AI产品和服务。GPT-5在多模态、长文本等技术优势下，有望为企业级数字化转型提供更强的赋能方案。结合领先企业数字化转型解决方案供应商，GPT-5有望推动AI算法和企业应用场景的深度融合，产生软硬一体化的AI产品组合。我们持续看好算力环节的投资机会，并建议逐步关注软件等应用环节的商业化落地进展。

本文作者：陈俊云（执业证书编号：S1010517080001）、贾凯方（执业证书编号：S1010522080001），来源：中信证券研究，原文标题：《美股科技｜对于OpenAI新一代模型GPT5，我们能期待什么?》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。