36氪独家获悉,AI创业公司「月之暗面」近期已完成新一轮超10亿美金融资,投资方包括红杉中国、小红书、美团、阿里,老股东跟投。
月之暗面的上一轮融资为2023年获得的超2亿美金融资,投资方包括红杉中国、真格基金等。本轮融资后,月之暗面估值已达约25亿美金,为国内大模型领域的头部企业之一。
自ChatGPT掀起全球浪潮以来,这也是国内AI大模型公司迄今获得的单轮最大金额融资。
36氪就上述消息向月之暗面求证,月之暗面表示,对具体融资消息暂不方便评论。
月之暗面(Moonshot AI)成立于2023年3月,是国内大模型领域的关键玩家。其核心团队曾参与到Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发中——这是一支在大模型道路上已探索多年的队伍。36氪了解到,目前月之暗面团队人数已超80人。
月之暗面的创始人杨植麟,为中国35岁以下NLP领域引用最高的研究者,Transformer-XL和XLNet两篇论文的第一作者——两者均为大语言模型领域的核心技术;另外两位联合创始人周昕宇和吴育昕,则有超过10000+的Google Scholar引用。
自2023年成立以来,月之暗面在不到一年的时间里,完成了从通用大模型到上层应用的布局。在大模型层,月之暗面已训练了千亿级别的自研通用大模型。
而在应用层,2023年10月,月之暗面正式推出首个面向C端的产品“Kimi智能助手”,这是月之暗面做To C超级应用的第一次尝试。Kimi智能助手支持20万汉字的长文本输入,主打无损记忆。
“长文本(Long Context)”是月之暗面当前主打的技术之一,这来源于团队希望突破大模型的落地瓶颈——大模型的智慧之所以能“涌现”,主要是因为通过扩大参数规模,突破到了千亿级别。
但当前大模型落地的瓶颈,不仅有参数规模大小(即模型计算能力),还有模型的“内存”大小,即记忆力。每轮对话能处理多少上下文信息,决定着AI应用的体验好坏。
值得一提的是,推出Kimi智能助手后,月之暗面可以说引起了一场关于“长文本技术”的小竞赛——随后,国内众多创业公司也相继推出了长文本相关的技术更新,而OpenAI和Anthropic在2023年11月也发布了长文本相关的新进展。
从国内的AI竞赛来看,通用大模型领域的第一梯队也已经清晰展现。据当前公开信息,除月之暗面以外,包括智谱AI、MiniMax、百川智能、零一万物在内的创业公司,估值都已达10亿美金后。
而月之暗面本轮融资,以及近期大模型公司的融资情况也显示出,国内通用大模型层的下注者有所变化——相较2023年,通用大模型层尚有VC的活跃身影,到了今年,大厂战略投资开始频频现身。
各个大厂都采取广投赛道,而非站队策略——阿里已投资包括智谱AI、百川智能、零一万物在内的创业公司;腾讯也投资了智谱AI、百川智能、MiniMax等公司。
尽管过去一年大模型的算法优化、模型训练成本有大幅下降,但大模型依然是极其昂贵的游戏。据36氪了解,当前头部的大模型公司的融资窗口仍在开放,“军备竞赛”还未告一段落。
大模型创业公司的估值水涨船高,迅速将参与门槛推到极高。一位投资人对36氪表示:“现阶段,通用大模型领域当前已经不是大多数VC的游戏,往后的投资人更多是政府和战投。”
另一方面,对现在的大模型创业公司而言,多模态模型是近期的核心竞争点。就在北京时间2月16日凌晨,谷歌重磅发布了最新的多模态模型Gemini Pro 1.5。几个小时后,OpenAI马上发布了首个AI视频模型Sora,可以生成超过60秒的视频,再次引发全球轰动。
比起以文本为主的大语言模型,以图像、视频为主的多模态模型,训练成本更高,未来将会需要更巨量的资金和人才——国内大模型公司当前争取更多融资,也意在为此做准备。
36氪也了解到,月之暗面当前已经在秘密研发通用多模态模型,预计今年内将推出。月之暗面在多模态相关技术上多有储备,团队成员曾发明了包括基于对比学习的视觉预训练范式MoCo、最高效的视觉网络结构之一ShuffleNet等,也有团队成员主导开发了detectron2,后者是一个被广泛使用的视觉开源项目,曾被集成到Meta全线VR/AR产品中。
本文来源:36kr,原文标题:《融资超10亿美金,AI公司「月之暗面」获红杉、小红书、美团、阿里新一轮投资 | 36氪独家》