吃瓜群众 2023/05/10 14:52

Meta闷声干大事！开源多感官AI模型，全方位模仿人类感知

5月9日，Meta公司公布了一个新的开源人工智能模型ImageBind，将六种数据流联系在一起，包括文本、音频、视觉、温度、深度和运动读数等。目前这只是个研究项目，但它展示了未来人工智能生成多感官内容的潜能，可以创造沉浸式多感官体验。

在演示视频中，向ImageBind展示一张大海的照片，它会自动搜索匹配到大海的声音；如果向它输入一张老虎的照片，以及一段瀑布的音频，它可以生成含这两种要素的视频；向它输入文本“小动物”，森林的图片，森林中下雨的声音，和IMU产生的运动读数，它会综合这些要素生成视频。

**Meta指出，其他可以被添加到未来模型中的感官输入流包括“触摸、讲话、气味和大脑fMRI（功能性磁共振成像）信号”。 **