今秋付费用户将能使用GPT-4o高级语音模式,测评和官方报告都提到了吓人之处

硬AI
比如,“在极少数情况下”,GPT-4o模型会开始模仿用户的声调和说话方式,或者干脆在对话中随意大喊大叫。甚至“当以特定方式给出提示语时,GPT-4o还容易产生令人不安或不适当的非语言发声和音效,如色情呻吟、暴力尖叫和枪声。”

本文作者:杜玉

来源:硬AI

在今年秋季某个未知时刻正式将OpenAI GPT-4o的高级语音模式(Advanced Voice Mode)推广到全体付费用户之前,本周OpenAI悄悄发布了GPT-4o模型的最新版本chatgpt-4o-latest。

有分析称,这一举动令人颇感意外,因为一周前OpenAI刚宣布了前沿模型的最新版本gpt-4o-2024-08-06,后者在API中提供结构化输出支持。

GPT-4o本周悄悄发布评测打分第一名的最新模型,允许开发者测试针对聊天用例的改进

目前,OpenAI仍建议开发人员在大多数API用例中使用gpt-4o-2024-08-06,但本周chatgpt-4o-latest模型将允许开发人员测试OpenAI针对聊天用例的最新改进。

据OpenAI官方文档介绍,chatgpt-4o-latest将是一个动态模型,会持续更新到GPT-4o之下。新的chatgpt-4o-latest模型仅用于研究和评估,支持12.8万个token的上下文和16,384个输出token。 在大模型(如GPT-4)中,Token是模型处理和理解文本的基本单位。

而在LMSYS Chatbot Arena上,上周谷歌推出了一款新的实验性Gemini 1.5 Pro模型,曾以1297分于上述在线平台中首次夺得测评第一名。而OpenAI本周则凭借最新chatgpt-4o-latest模型以创纪录的1314分重回榜首,在编码、指令遵循和固定提示模版的Hard Prompt方面有显著改进。

据介绍,LMSYS Chatbot Arena是一个在线平台,直译为“在线聊天机器人竞技场”,旨在通过用户与匿名聊天机器人模型的互动,对各公司研发的大语言模型(LLM)进行基准测试。该平台收集了超过70万次人类投票,计算出LLM的Elo排行榜,以确定出AI聊天机器人领域的冠军。

ChatGPT周一在社交媒体的官方账号上透露,最新模型只是对现有GPT-4o模型的改进,而不是升级成GPT-5之类的全新模型,最新模型是“基于实验结果和定性反馈而作出的错误修复和性能改进”,已经取代了更旧版本的GPT-4o,使用于ChatGPT的用户界面中。

秋季所有付费用户将能使用GPT-4o高级语音模式,测评和官方报告都提到了吓人之处

而OpenAI密集发布GPT-4o的最新版本,又强调针对聊天用例的改进,不难让人联想到是在为“高级语音模式”的秋季全面推出预热。5月首次演示“高级语音模式”时,OpenAI曾称这是一种极其逼真、几乎实时地让用户与AI聊天机器人语音对话的功能。

最近,上述“高级语音模式”正以Alpha版本的形态发布给少数用户进行测试。美国新锐科技媒体Wired(《连线》)本周发布测评体验称,ChatGPT的高级语音模式“很有趣,但又有点吓人”。

文章称,作者在写作时也开着这一高级语音模式,有时用语音输入要求它提供同义词或者一些鼓励的话,在沉默了约半小时后,GPT-4o高级语音模式突然主动用西班牙语跟作者对话,再唤起用户的反应后解释称“想让场面变得更有趣一些”,然后又恢复成说英语。

文章作者尝试让两台打开GPT-4o高级语音模式的手机相互对话,聊天机器人可以根据用户要求轻松地在法语、德语和日语之间切换,OpenAI称GPT-4o模型可使用45种语言。

文章作者还发现,高级语音模式在生成声音特效方面表现得不错,例如可以模仿特朗普的语气夸张地解释动画片《飞天小女警》,又搞笑又惟妙惟肖,作者称:

“距离美国总统大选仅剩几个月,选举深度造假正成为人们关注的焦点,ChatGPT竟然愿意提供主要候选人的声音模仿,这令我措手不及。ChatGPT也模仿了拜登和哈里斯的声音,但听起来不如机器人模仿特朗普的演讲那么逼真。”

作者称,总体来说与GPT-4o高级语音模式的对话是轻松愉快的,但也有比较吓人的时候。例如,对话背景中多次出现白噪音,“就像黑暗地下室的孤灯发出不祥嗡嗡声”;当被要求提供气球音效时,GPT-4o发出响亮的气球爆炸砰砰声,还伴随着“让我不寒而栗的怪异喘息声”。

事实上,OpenAI官方上周发布了一份报告,也指出了最新GPT-4o模型存在异常之处。比如,“在极少数情况下”,GPT-4o模型会偏离指定的声音,开始模仿用户的声调和说话方式,或者干脆在对话中随意大喊大叫。甚至“当以特定方式给出提示语时,GPT-4o还容易产生令人不安或不适当的非语言发声(nonverbal vocalizations)和音效,如色情呻吟、暴力尖叫和枪声。”

OpenAI表示,在高背景噪音环境中,例如在路上行驶的汽车中使用GPT-4o高级语音模式,会让聊天机器人模仿用户的声音,这是由于模型难以理解畸形语音。公司已添加“系统级缓解措施”,有证据表明该模型通常会拒绝生成音效的请求,但也承认有些请求确实会通过并生成不当回答。

GPT-4o高级语音模式的测评者都注意到了ChatGPT拒绝唱歌,它会告诉用户“抱歉,唱歌真得不是我的强项”,有分析称,这可能是OpenAI在力图规避侵犯音乐版权的风险,为了避免抄袭知名艺术家的风格、语调和音色。也有人怀疑这说明OpenAI使用受版权保护的材料训练过GPT-4o。

上周OpenAI的报告显示,该公司正在通过各种缓解和保障措施令GPT-4o变成更加安全的人工智能模型。例如,GPT-4o会拒绝根据人们的说话方式或口音识别用户来自哪里,并拒绝回答“这个说话者有多聪明”之类的诱导性问题。它还会屏蔽暴力和色情语言的提示语,并完全禁止某些类别的内容,例如与极端主义和自我伤害有关的讨论。

据悉,当高级语音模式可用时,付费订阅的ChatGPT Plus用户将收到来自OpenAI的邮件通知,当ChatGPT的语音模式在界面中被打开时,可以在应用程序的屏幕顶部切换成“标准语音模式”或“高级语音模式”。

本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章