经过长达一年与人类训练师协作优化,OpenAI于美国当地时间周二发布了GPT-4o原生多模态图像生成功能,支持生成更加逼真的图像。
用户只需在ChatGPT中描述图像(可指定宽高比、色号或透明度等参数),GPT-4o便能在一分钟内生成相应图像。让我们细致看一看:本次更新,突破了以往的哪些边界。
OpenAI在公告中确认,GPT-4o图像生成功能具有以下特点:
-
精准渲染图像内文字,能够制作logo、菜单、邀请函和信息图等;
-
精确执行复杂指令,甚至在细节丰富的构图中也能做到;
-
基于先前的图像和文本进行扩展,确保多个交互之间的视觉一致性;
-
支持各种艺术风格,从写实照片到插图等。
GPT-4o生成图片效果展示
除了通过GPT-4o可以在ChatGPT中直接生成图像,该模型还整合进了OpenAI的视频生成平台Sora,进一步扩展了其多模态能力。
新模型即日起将作为ChatGPT的默认图像生成引擎,向ChatGPT Free、Plus、Team及Pro用户开放,取代此前使用的DALL-E 3。企业版、教育版以及API接口也将在不久后支持该功能。
据OpenAI官方说明,GPT-4o在多个方面相较于过去的模型进行了改进:
-
更好的文本集成:与过去那些难以生成清晰、恰当位置文字的AI模型不同,GPT-4o现在可以准确地将文字嵌入图像中;
-
增强的上下文理解:GPT-4o通过利用聊天历史,允许用户在互动中不断细化图像,并保持多次生成之间的一致性;
-
改进的多对象绑定:过去的模型在正确定位场景中的多个不同物体时存在困难,而GPT-4o现在可以一次处理多达10至20个物体;
-
多样化风格适应:该模型可以生成或将图像转化为多种风格,支持从手绘草图到高清写实风格的转换。
作为去年推出的多模态模型,GPT-4o最初的定位是成本优化版的旗舰AI模型,具备生成和理解文本、视频、音频和图像等能力。OpenAI表示,此次精调后的版本使普通用户和企业能够更轻松地创建逼真图像、可读文本段落,乃至公司logo和演示幻灯片等。
项目首席研究员Gabriel Goh透露,GPT-4o取得突破性进展的关键,源于人类训练师对模型数据的标注工作——标注了AI生成图像中的错别字、畸形手脚和面部特征等问题。通过“人类反馈强化学习”(RLHF)技术,模型学会了更精准地遵循人类指令,从而生成更准确且实用的图像。
GPT-4o生成图片效果展示
“人类反馈强化学习”是AI公司用来在初步训练后进一步优化模型的常见技术。鉴于OpenAI的AI系统拥有庞大的用户基础——ChatGPT每周拥有超过4亿用户——这些人工训练师的影响力不可忽视。OpenAI表示,参与该优化过程的训练师团队规模略超百人。
然而,GPT-4o的图像生成技术仍然存在局限性。华尔街日报称OpenAI展示的一个案例中,当用户上传了一张带有两扇窗户的客厅照片,并要求重新布置家具时,AI在重构图像时遗漏了一扇窗户。
华尔街日报关于用户图片生成案例的报道
同时,AI图像生成的使用仍然引发争议。一些艺术家指控AI图像生成器剽窃他们的作品,并威胁到他们的生计。
OpenAI首席运营官布拉德·莱特卡普对此回应称,GPT-4o的训练数据来自“公开可用的资料”以及与Shutterstock等公司的合作内容。
OpenAI总裁格雷格·布罗克曼早在2024年5月就预告过GPT-4o的原生图像能力,但出于未公开的原因,该公司直到现在才发布该功能。此前,谷歌AI Studio的Gemini 2 Flash实验模型已经推出了类似功能。
格雷格·布罗克曼此前预告GPT-4o原生图像能力
现阶段,GPT-4o取得了许多进步,但它仍然存在一些问题,其中包括:
-
裁剪问题:像海报这样的较大图像可能会被过度裁剪;
-
非拉丁字符的文本准确性:某些非英语字符可能无法正确呈现;
-
小字体中的细节保留:小字号文本的细节可能会丢失或不够清晰;
-
编辑精确度:修改图像的特定部分时,可能会意外影响其他元素。
OpenAI表示,正在通过持续的模型改进积极解决这些问题。
作为OpenAI对负责任AI开发的承诺的一部分,所有由GPT-4o生成的图像都包含C2PA元数据,用户可以验证其AI来源。此外,OpenAI还建立了一个内部搜索工具,用于帮助检测AI生成的图像。
OpenAI强调,涉及真人图像的内容会受到更严格的限制。
山姆·奥特曼在新能力上线后发布“小作文”,称此次发布标志着“创作自由的新高峰”,并强调用户将能够创建各种视觉内容,OpenAI将在真实世界的使用基础上观察并完善其方法。
以下是OpenAI官方及赛博禅心(微信公众号ID:BinaryBodhi)发布的生图实测:
图片质量相当高,可直接用于科普插画,比如:分光三棱镜
继续对话,一致性相当好,比如让他画成书册:

文本渲染绝佳
一图胜千言,来感受一下。比如让他根据对话内容,来画一个菜单(文字是单独给的)

或者让他去画一个婚礼邀请(同样,文字单独给到)

多轮生成很棒
这套图像生成,是 GPT-4o 的原生功能,可通过对话,逐步进行图像完善,并保持内容一致。比如这个:
也比如我把橘猫放在了魔兽世界里
甚至来说,我还可以要求他生成 png 透明版

指令遵循很强
在生成图像的时候,4o 的指令遵循能力很强,可以处理包含 10-20 个不同物体的场景,并对物体与特征及关系的紧密绑定允许更好的控制。
比如:只有一滴红酒的空玻璃杯
prompt: show me a wine glass with only the tiniest drop of red wine in it.
比如:看不见的大象

Prompt: We need evidence there is a currently present invisible elephant. Consider what an elephant is and does in the environment, then show us that, perhaps mid-process - but the elephant itself is not shown at all
我还让他给画了个撸猫指南
Prompt: 4-step photo guide on how to pet a cat
上下文关联
如果很清楚知道自己要什么,可以直接上传图片给 ChatGPT,让参考风格、精准输出。比如给一些风格插画,然后要求 GPT 来生成一个三角形轮子的自行车

吐槽:为啥是英国专利
Hhhhh 太真实了,GPT 觉得奥特曼上不了传说,种族属于「战吼」
然后,还可以让他做个实体版... 稀有度变成了普通,技能变成了嘲讽,hhhhh认真的吗?

贯通现实知识
4o 的绘图,能够从大模型中直接获取到知识,生成与现实世界知识相符的图像,如:可以直接使用的鸡尾酒配方
制作一款披萨
动量定理和冲量定理

Prompt: 画一个有关冲量定理和动量定理的 infographic
Prompt:画一个肯德基的简体中文菜单,其中有一个套餐叫做“V 我 50”
风格多样
4o 的这个模型,能轻松绘制各种风格的图像。比如我让他用莫奈的风格,来画一只猫

Prompt:一只猫,莫奈风格
幻想风格的海豚地铁

奥特曼在采棉花,颇有纪录片的范儿

Prompt: 山姆奥特曼正在采棉花
一些限制
当然,这个模型也存在一些问题:
对于长图像,会出现剪裁问题

可能产生幻觉,然后开始胡编乱造

难以准确渲染超过20个不同概念
多语言文本渲染:处理非拉丁语言(比如中文)不够准确

对特定部分要求编辑,可能会出 bug
以及...出于安全考虑,很多内容不允许被生成,比如:米老鼠大战皮卡丘的钞票
