今早凌晨,OpenAI在社交平台宣布正式发布ChatGPT Voice功能,所有免费用户可以在移动应用中使用,通过语音与ChatGPT进行实时交互。
当用户问道:我应该为778人订购多少个16英寸披萨?
ChatGPT回答:假设每人平均吃三片披萨,每个16英寸披萨大约提供12片,那么您需要订购195片左右。您想知道从哪里订购或了解有关为大型团体组织食物的其他信息吗?
据悉,ChatGPT Voice的语音功能由一个文本到语音模型提供支持,能够仅通过文字和几秒钟的样本语音生成类似人类的音频。
OpenAI与专业的配音演员合作,创建了5种合成语音,同时使用了自研开源语音识别系统 Whisper,将用户的语音转录成文本。简单来说,以后用户想将文本直接生成语音,可以在ChatGPT中完成。
例如,让ChatGPT听一段指环王的文本故事,然后选择不同类型的人类语音就能完成转录,用户还可以下载这段语音。
比较有趣的是,Greg Brockman和Mira Murati都转发了这条消息,这是否在暗示着什么呢?