本文作者:李丹
来源:硬AI
OpenAI首次公开发布四个月后,ChatGPT的类人高级人工智能(AI)语音助手功能终于开始面向广大付费用户。
美东时间9月24日周二,OpenAI宣布,所有付费订阅OpenAI ChatGPT Plus 和 Team 计划的用户都将可以使用新的 ChatGPT 高级语音模式Advanced Voice,该功能将在未来几天内逐步推出,将首先在美国市场上线。下周,该功能将向OpenAI Edu 和 Enterprise 计划的订阅者开放。
这意味着,本周,ChatGPT的Plus 版个人用户和 Teams 版小型企业团队用户都可以启用新的语音功能,只需通过说话、无需手动输入提示词和GPT对话。在App上访问高级语音模式时,用户可以通过弹出窗口知道自己已经进入了高级语音助手,用户会收到App的通知。
OpenAI赋予ChatGPT新语音版两种功能,一是为语音助手存储“自定义指令”的功能,二是记住用户希望语音助手表现何种行为的“记忆”功能,类似于今年4月OpenAI为ChatGPT 文本版本推出的记忆功能。用户可以利用这些功能确保语音模式的个性化,让AI助手根据用户对所有对话的偏好做出响应。
OpenAI本周二推出了五种不同风格的新声音,分别名为Arbor、Maple、Sol、Spruce 和 Vale,加上之前老版语音模式推出的四种声音 Breeze、Juniper、Cove 和 Ember,可选声音达到九种,撤走了被指山寨“寡姐”的声音Sky。OpenAI还提高了部分外语的对话速度、流畅度并改进口音。
OpenAI介绍,先进的语音助手可以用超过50种语言说“对不起,我迟到了”,并在社交媒体的发帖中附上一段视频,演示用户可以要求语音助手表达,因为让奶奶等了很久,向奶奶致歉。视频显示,AI助手首先按照要求总结了用户想要表达的意思,用英语说了一遍,而后,在用户提示AI奶奶只会说普通话之后,AI助手又用标准的普通话说了一遍。
全新的语音功能适用于OpenAI的AI模型GPT-4o,不适用于最近发布的预览模型 o1。
此次新语音功能上线可谓姗姗来迟。华尔街见闻曾提到,今年5月OpenAI就在推出新旗舰模型GPT-4o时演示了语音模式Voice Mode。当时GPT-4o支持的ChatGPT声音听起来像一名美国成年女性,可以即时回应请求。当它听到演示的OpenAI 研究主管 Mark Chen呼气过度时,似乎从中察觉到了他的紧张,然后说他说“Mark,你不是吸尘器”,告诉Chen要放松呼吸。
OpenAI原计划6月末向一小批Plus计划用户推出该语音模式,但6月宣布推迟一个月发布,以便确保该功能安全有效地处理来自数百万用户的请求。当时OpenAI称,计划今年秋季让所有Plus用户都可以访问该功能,确切的时间表取决于是否达到内部对安全性和可靠性的高标准。
7月末,OpenAI对有限的部分付费Plus用户推出高级语音模式下的ChatGPT,称语音模式无法模仿他人的说话方式,且增加了新的过滤器,保证软件能够发现并拒绝某些生成音乐或其他形式受版权保护音频的请求。不过,新的语音模式缺少5月OpenAI展示过的不少功能,比如计算机视觉功能。该功能可让GPT仅通过使用智能手机的摄像头就对用户的舞蹈动作提供语音反馈。
本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里