5月9日,Meta公司公布了一个新的开源人工智能模型ImageBind,将六种数据流联系在一起,包括文本、音频、视觉、温度、深度和运动读数等。目前这只是个研究项目,但它展示了未来人工智能生成多感官内容的潜能,可以创造沉浸式多感官体验。
在演示视频中,向ImageBind展示一张大海的照片,它会自动搜索匹配到大海的声音;如果向它输入一张老虎的照片,以及一段瀑布的音频,它可以生成含这两种要素的视频;向它输入文本“小动物”,森林的图片,森林中下雨的声音,和IMU产生的运动读数,它会综合这些要素生成视频。
**Meta指出,其他可以被添加到未来模型中的感官输入流包括“触摸、讲话、气味和大脑fMRI(功能性磁共振成像)信号”。 **