OpenAI升级GPT-4 API，视觉和更长文本版本上线

硬AI

2024/04/10 10:04

OpenAI宣布GPT-4-Turbo全面升级，GPT-4 Turbo with Vision新增视觉理解能力，可同时处理文本和图像信息，极大简化了开发流程。

OpenAI宣布GPT-4 Turbo全面升级！

一款具有视觉处理能力的最新GPT-4 Turbo模型——GPT-4 Turbo with Vision已通过OpenAI API正式上线。

虽然GPT-4-Turbo发布已久，但一直以“预览版”的方式提供，和其他 GPT-4 Turbo 预览版一样，GPT-4 Turbo支持128k上下文窗口，可以在单个 prompt中处理超过300页的文本，模型训练的数据截止日期为2023年12月，更长的上下文意味着模型输出结果更加准确。

此次发布的GPT-4-Turbo正式版最大的革新之处在于，其新增的视觉理解能力，且视觉请求支持JSON格式和函数调用方式。

开发者现在可以通过文本格式JSON和函数调用来运用模型的视觉识别和分析功能，生成的JSON代码片段可用于自动化连接应用中的操作，如发邮件、发帖、购物等。OpenAI建议在执行这类操作前先设置用户确认流程。

价格方面，本次发布的GPT-4-Turbo正式版和之前的 GPT-4-Turbo“预览版保持一致：输入：$10.00 / 100万 tokens；输出：$30.00 / 100万 tokens；读图：最低$0.00085 /图。

OpenAI发言人表示，在过去开发者需要调用不同的模型来处理文本和图像信息，而GPT-4 Turbo with Vision则将两者合二为一，极大简化了开发流程，同时可以分析图像和文本并应用推理。

OpenAI还重点介绍了客户使用GPT-4 Turbo with Vision的几个案例，如Cognition的AI编程助手——Devin，由GPT-4 Turbo提供支持，利用视觉功能来执行各种编程任务。

健康健身应用程序Healthify使用GPT-4 Turbo with Vision 扫描用户上传的饮食照片，通过图像识别提供营养分析：

英国初创公司TLDraw使用 GPT-4 Turbo with Vision 为其虚拟白板提供支持，并将用户的绘图转换为功能网站:

目前，GPT-4 Turbo with Vision尚未应用于ChatGPT或开放给大众使用，不过 OpenAI暗示该功能即将登陆ChatGPT。

从网友评价来看，有网友对于将视觉理解能力融入API表示赞赏，认为API中有了视觉识别功能很酷。

也有网友对于OpenAI在推文中用了“majorly improved”（显著改善）这一词表达了质疑，让OpenAI好好解释一下什么是显著改善。

也有网友称，请下一条推文发布和GPT-5有关的内容，否则就别发了。

当然，网友的评价里也少不了和Claude 3的比较，有网友称，现在可以看看到底能不能打败Claude 3 Opus了。

本文来自微信公众号“硬AI”，关注更多AI前沿资讯请移步这里

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

抢占印度市场！OpenAI向印度用户赠送一年ChatGPT Go会员