OpenAI升级GPT-4 API,视觉和更长文本版本上线

硬AI
OpenAI宣布GPT-4-Turbo全面升级,GPT-4 Turbo with Vision新增视觉理解能力,可同时处理文本和图像信息,极大简化了开发流程。

OpenAI宣布GPT-4 Turbo全面升级!

一款具有视觉处理能力的最新GPT-4 Turbo模型——GPT-4 Turbo with Vision已通过OpenAI API正式上线。

虽然GPT-4-Turbo发布已久,但一直以“预览版”的方式提供,和其他 GPT-4 Turbo 预览版一样,GPT-4 Turbo支持128k上下文窗口,可以在单个 prompt中处理超过300页的文本,模型训练的数据截止日期为2023年12月,更长的上下文意味着模型输出结果更加准确。

此次发布的GPT-4-Turbo正式版最大的革新之处在于,其新增的视觉理解能力,且视觉请求支持JSON格式和函数调用方式。

开发者现在可以通过文本格式JSON和函数调用来运用模型的视觉识别和分析功能,生成的JSON代码片段可用于自动化连接应用中的操作,如发邮件、发帖、购物等。OpenAI建议在执行这类操作前先设置用户确认流程。

价格方面,本次发布的GPT-4-Turbo正式版和之前的 GPT-4-Turbo“预览版 保持一致:输入:$10.00 / 100万 tokens;输出:$30.00 / 100万 tokens; 读图:最低$0.00085 /图。

OpenAI发言人表示,在过去开发者需要调用不同的模型来处理文本和图像信息,而GPT-4 Turbo with Vision则将两者合二为一,极大简化了开发流程,同时可以分析图像和文本并应用推理。

OpenAI还重点介绍了客户使用GPT-4 Turbo with Vision的几个案例,如Cognition的AI编程助手——Devin,由GPT-4 Turbo提供支持,利用视觉功能来执行各种编程任务。

健康健身应用程序Healthify使用GPT-4 Turbo with Vision 扫描用户上传的饮食照片,通过图像识别提供营养分析:

英国初创公司TLDraw使用 GPT-4 Turbo with Vision 为其虚拟白板提供支持,并将用户的绘图转换为功能网站:

目前,GPT-4 Turbo with Vision尚未应用于ChatGPT或开放给大众使用,不过 OpenAI暗示该功能即将登陆ChatGPT。

从网友评价来看,有网友对于将视觉理解能力融入API表示赞赏,认为API中有了视觉识别功能很酷。

也有网友对于OpenAI在推文中用了“majorly improved”(显著改善)这一词表达了质疑,让OpenAI好好解释一下什么是显著改善。

也有网友称,请下一条推文发布和GPT-5有关的内容,否则就别发了。

当然,网友的评价里也少不了和Claude 3的比较,有网友称,现在可以看看到底能不能打败Claude 3 Opus了。

本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章