跳票近一年！OpenAI终于上线GPT-4o 直接一句话生图功能

腾讯科技

2025/03/26 19:49

GPT-4o能够精准渲染图像内文字，能够制作logo、菜单、邀请函和信息图等，精确执行复杂指令，甚至在细节丰富的构图中也能做到；支持各种艺术风格，从写实照片到插图等。

经过长达一年与人类训练师协作优化，OpenAI于美国当地时间周二发布了GPT-4o原生多模态图像生成功能，支持生成更加逼真的图像。

用户只需在ChatGPT中描述图像（可指定宽高比、色号或透明度等参数），GPT-4o便能在一分钟内生成相应图像。让我们细致看一看：本次更新，突破了以往的哪些边界。

OpenAI在公告中确认，GPT-4o图像生成功能具有以下特点：

精准渲染图像内文字，能够制作logo、菜单、邀请函和信息图等；
精确执行复杂指令，甚至在细节丰富的构图中也能做到；
基于先前的图像和文本进行扩展，确保多个交互之间的视觉一致性；
支持各种艺术风格，从写实照片到插图等。

GPT-4o生成图片效果展示

除了通过GPT-4o可以在ChatGPT中直接生成图像，该模型还整合进了OpenAI的视频生成平台Sora，进一步扩展了其多模态能力。

新模型即日起将作为ChatGPT的默认图像生成引擎，向ChatGPT Free、Plus、Team及Pro用户开放，取代此前使用的DALL-E 3。企业版、教育版以及API接口也将在不久后支持该功能。

据OpenAI官方说明，GPT-4o在多个方面相较于过去的模型进行了改进：

更好的文本集成：与过去那些难以生成清晰、恰当位置文字的AI模型不同，GPT-4o现在可以准确地将文字嵌入图像中；
增强的上下文理解：GPT-4o通过利用聊天历史，允许用户在互动中不断细化图像，并保持多次生成之间的一致性；
改进的多对象绑定：过去的模型在正确定位场景中的多个不同物体时存在困难，而GPT-4o现在可以一次处理多达10至20个物体；
多样化风格适应：该模型可以生成或将图像转化为多种风格，支持从手绘草图到高清写实风格的转换。

作为去年推出的多模态模型，GPT-4o最初的定位是成本优化版的旗舰AI模型，具备生成和理解文本、视频、音频和图像等能力。OpenAI表示，此次精调后的版本使普通用户和企业能够更轻松地创建逼真图像、可读文本段落，乃至公司logo和演示幻灯片等。

项目首席研究员Gabriel Goh透露，GPT-4o取得突破性进展的关键，源于人类训练师对模型数据的标注工作——标注了AI生成图像中的错别字、畸形手脚和面部特征等问题。通过“人类反馈强化学习”（RLHF）技术，模型学会了更精准地遵循人类指令，从而生成更准确且实用的图像。

GPT-4o生成图片效果展示

“人类反馈强化学习”是AI公司用来在初步训练后进一步优化模型的常见技术。鉴于OpenAI的AI系统拥有庞大的用户基础——ChatGPT每周拥有超过4亿用户——这些人工训练师的影响力不可忽视。OpenAI表示，参与该优化过程的训练师团队规模略超百人。

然而，GPT-4o的图像生成技术仍然存在局限性。华尔街日报称OpenAI展示的一个案例中，当用户上传了一张带有两扇窗户的客厅照片，并要求重新布置家具时，AI在重构图像时遗漏了一扇窗户。

华尔街日报关于用户图片生成案例的报道

同时，AI图像生成的使用仍然引发争议。一些艺术家指控AI图像生成器剽窃他们的作品，并威胁到他们的生计。

OpenAI首席运营官布拉德·莱特卡普对此回应称，GPT-4o的训练数据来自“公开可用的资料”以及与Shutterstock等公司的合作内容。

OpenAI总裁格雷格·布罗克曼早在2024年5月就预告过GPT-4o的原生图像能力，但出于未公开的原因，该公司直到现在才发布该功能。此前，谷歌AI Studio的Gemini 2 Flash实验模型已经推出了类似功能。

格雷格·布罗克曼此前预告GPT-4o原生图像能力

现阶段，GPT-4o取得了许多进步，但它仍然存在一些问题，其中包括：

裁剪问题：像海报这样的较大图像可能会被过度裁剪；
非拉丁字符的文本准确性：某些非英语字符可能无法正确呈现；
小字体中的细节保留：小字号文本的细节可能会丢失或不够清晰；
编辑精确度：修改图像的特定部分时，可能会意外影响其他元素。

OpenAI表示，正在通过持续的模型改进积极解决这些问题。

作为OpenAI对负责任AI开发的承诺的一部分，所有由GPT-4o生成的图像都包含C2PA元数据，用户可以验证其AI来源。此外，OpenAI还建立了一个内部搜索工具，用于帮助检测AI生成的图像。

OpenAI强调，涉及真人图像的内容会受到更严格的限制。

山姆·奥特曼在新能力上线后发布“小作文”，称此次发布标志着“创作自由的新高峰”，并强调用户将能够创建各种视觉内容，OpenAI将在真实世界的使用基础上观察并完善其方法。

以下是OpenAI官方及赛博禅心（微信公众号ID：BinaryBodhi)发布的生图实测：

图片质量相当高，可直接用于科普插画，比如：分光三棱镜

继续对话，一致性相当好，比如让他画成书册：

文本渲染绝佳

一图胜千言，来感受一下。比如让他根据对话内容，来画一个菜单（文字是单独给的）

或者让他去画一个婚礼邀请（同样，文字单独给到）

多轮生成很棒

这套图像生成，是 GPT-4o 的原生功能，可通过对话，逐步进行图像完善，并保持内容一致。比如这个：

也比如我把橘猫放在了魔兽世界里

甚至来说，我还可以要求他生成 png 透明版

指令遵循很强

在生成图像的时候，4o 的指令遵循能力很强，可以处理包含 10-20 个不同物体的场景，并对物体与特征及关系的紧密绑定允许更好的控制。

比如：只有一滴红酒的空玻璃杯

prompt: show me a wine glass with only the tiniest drop of red wine in it.

比如：看不见的大象

Prompt: We need evidence there is a currently present invisible elephant. Consider what an elephant is and does in the environment, then show us that, perhaps mid-process - but the elephant itself is not shown at all

我还让他给画了个撸猫指南

Prompt: 4-step photo guide on how to pet a cat

上下文关联

如果很清楚知道自己要什么，可以直接上传图片给 ChatGPT，让参考风格、精准输出。比如给一些风格插画，然后要求 GPT 来生成一个三角形轮子的自行车

吐槽：为啥是英国专利

而我，作为炉石玩家，我让 ChatGPT 来生成一份奥特曼的专属卡片

Hhhhh 太真实了，GPT 觉得奥特曼上不了传说，种族属于「战吼」

然后，还可以让他做个实体版... 稀有度变成了普通，技能变成了嘲讽，hhhhh认真的吗？

贯通现实知识

4o 的绘图，能够从大模型中直接获取到知识，生成与现实世界知识相符的图像，如：可以直接使用的鸡尾酒配方

Prompt: Make me a professionally shot photorealistic diagram of the top selling cocktails in my bar with recipes labeled on each drink. put the recipes on handwritten cards in front of each drink. The cards are brown, and the text is black. Background is white.Title is "4 most popular cocktails"

制作一款披萨

Prompt: A graphic of an Italian chef giving instructions on how to make authentic pepperoni pizza

动量定理和冲量定理

Prompt: 画一个有关冲量定理和动量定理的 infographic

Prompt：画一个肯德基的简体中文菜单，其中有一个套餐叫做“V 我 50”

风格多样

4o 的这个模型，能轻松绘制各种风格的图像。比如我让他用莫奈的风格，来画一只猫

Prompt：一只猫，莫奈风格

幻想风格的海豚地铁

Prompt: A realistic underwater scene with dolphins swimming through the windows of an abandoned subway car, with bubbles and detailed water flow accurately simulated.

奥特曼在采棉花，颇有纪录片的范儿