“刷屏”的Manus,第一波测评来了,是“技术突破”还是“营销炸天”?

有评论认为,Manus在垂直整合、用户体验、UI创新、技术整合等方面表现出色,但在用户价值方面仍有提升空间,产出效果和实际解决问题能力其与现有产品相比并无显著差异。所以Manus是真实力还是营销炒作,仍有待更多第三方测评验证,当更多用户获得体验机会后,市场将给出最终评判。

这两天,中国造的Manus横空出世,以全球首款通用AI Agent刷频全网,但爆火同时惊叹与争议并存。

第一波测评显示,Manus的“真人干活感”确实让人感到惊艳,写文章、做PPT、写分析报告等轻松拿捏。有评论认为,Manus确实展示了一个AI Agent新物种的雏形,其在技术整合和用户体验方面的创新值得关注。

但同时也存在诸多争议,比如国内外热度反差、自媒体铺天盖地"吹捧"、邀请码模式等,让业内人士质疑其存在过度营销之嫌。

第一波测评:AI Agent行业的DeepSeek-V2时刻?

《每日经济新闻》记者第一时间拿到邀请码后,对Manus进行了多项任务测试,包括撰写文章、制作分析报告及PPT、编写代码,和前端UI设计。

记者首个测试任务选择了与自身工作相关的写作,仅用一句简单的提示词:"以新闻报道的形式介绍下开发Manus的公司。"18分钟后,Manus就生成了一份结构完整的新闻报道,包括产品介绍、公司团队,以及对于市场的影响。

更有趣的是,Manus会将整个工作流程展示给用户,如同真实人类一般工作。在撰写文章过程中,Manus会进入各大网站搜集可用素材,甚至还因为没有知乎账号被卡在了登录界面一会儿。

在第二项测试中,记者要求Manus分析特斯拉股票并提供PPT。40多分钟后,Manus生成了一份31页的PPT文件,还撰写了一份详尽的多维度分析报告。整体而言,输出的分析报告和PPT质量极高,元素丰富,分析维度齐全,并配备丰富的图表,效果直观。

在编写"判断程序是否陷入死循环"的代码任务中,Manus表现出对计算机科学理论的深刻理解。它首先指出这个问题本质上没有通用解,然后尝试从侧面解决。北美某大厂资深程序员评价认为,代码质量可靠,且能在服务器端运行测试并给出结果。

公众号阑夕在深度实测后,评价Manus是AI Agent行业的DeepSeek-V2时刻

2024年5月,DeepSeek开源V2版本的模型,这是它第一次出圈,因为价格非常便宜,但是因为模型本身的能力一般,所以当时很多人只是觉得DeepSeek要来打价格战了,感到意外但不重视,热度也没有持续太久。直到DeepSeek-V3和R1的连续发布,大家这才发现事情完全不一样,一夜之间整个大模型市场的成本逻辑都被颠覆了。

在阑夕的测评中,要求Manus制作一个国家的极简编年史,要求包含漫画表选和网页设计。Manus创建了一个英国历史的极简编年史网页,将历史分为10个不同时代,并基于各时代风貌绘制SVG图片呈现在网页上。尽管作品配色不佳,且因服务器宕机未能进一步修改,但整体效果仍可作为"人机协同的样板间",无论用作课外教案还是作品预览,都具有极低的使用门槛。

让Manus用科技公司的logo来做游戏图标,很快就做完了一个带积分的消消乐游戏,玩起来也算顺畅。

在阑夕测评中,Manus也展现出局限性。当被要求制作使用原神角色图标的消消乐游戏时,它在尝试搜集素材时遭遇网盘登录阻碍,不得不向用户发出接管请求。在处理复杂任务时,Manus在细节方面还存在不足,比如屏幕适配问题需要更多人工指导。

表现令人惊艳,但用户价值仍有提升空间

自媒体MindCode对Manus进行了深入分析,提出了八点看法,认为其在垂直整合、用户体验、UI创新、技术整合等方面表现出色,尤其是对于创业公司来说,Manus的表现令人惊艳。但Manus的用户价值仍有提升空间,产出效果和实际解决问题能力其与现有产品相比并无显著差异,概括如下:

1. 垂直整合的典范

首先,Monica团队在这次产品发布中实现了漂亮的垂直整合。垂直整合的能力在AI产品开发中至关重要,Manus表现出了这方面的出色能力。

2. 用户体验的突破

Manus让一般用户感到惊艳,主要是因为它营造了一种"真人干活感"。但这种惊艳主要针对普通用户,对于熟悉AI领域的人士而言,Manus的基础能力与已有产品如Devin相比并无革命性突破。

3. UI层面的创新探索

Manus的本质首先是UI层面的探索,虽然这并非他们首创,但他们是第一个将这样的UI引入到解决普通用户场景的产品(之前的Devin主要解决编程场景),拓宽了用户基数并形成了更高的价值势能差。这种勇气和能力值得赞赏。

4. 技术整合能力的体现

Manus的核心能力主要体现在三个方面:一是模型进行了一定量的后训练,带来了"魔法感";二是实现了多agent协同和多模型整合调用;三是成功垂直整合了多个现成技术。虽然Manus背后的主要技术都是现成的,但整合这些技术本身就是能力的体现。

5. 用户价值仍有提升空间

从目前给出的任务例子看,Manus的产出效果与价值感与Claude或GPT相比并没有显著差异。用户不应仅仅停留在"真人干活"的惊艳感上,而应关注其实际解决问题的能力。

6. 交互范式的价值

Manus所带来的UI交互范式是有价值的。看到AI展示自己打开浏览器刷网页的过程,给用户带来了掌控感和过程介入感。更重要的是,交互的变化会带来能力的变化,这种交互形式能更好地让AI完成仅靠后端调用难以完成的任务。

7. 创业公司的杰出表现

考虑到Monica的公司规模和发展阶段,Manus的表现非常出色。即使是OpenAI或Claude推出类似产品,也值得惊艳一把。

8. 重新评估"套壳"价值

不应简单地将基于现有技术整合的产品贬低为"套壳"。正如专家所言:"不是每个套壳都是垃圾,有的套壳就是未来。"

爆火背后的争议与质疑

Manus突然走红的同时引发诸多质疑。据公众号三言Pro总结,质疑点包括海内外热度差异、传播路径反常、测评来源的单一性、定位与宣传的矛盾、请码模式的营销策略等。

不少持怀疑态度的网友指出,Manus的"爆火"似乎主要局限于国内,在3月6日早上6、7点,突然有大量自媒体不约而同地发文宣传Manus,而该产品在国外视频平台上的存在感并不高。

而且与一般技术产品不同,Manus最先是由自媒体"吹捧"起来的,而非经由技术专业人士的评测和讨论。有网友质疑认为,凡是先由自媒体炒热的概念,通常都有营销炒作的成分。这与DeepSeek当初的走红路径(先由专业人士测试体验后走红,随后才是媒体宣传)形成了鲜明对比。

另外,在大多数自媒体宣传文章中,Manus的评测大部分都是对官方宣传案例的解析,只有少数媒体提供了非官方测评。虽然这与Manus采用邀请码形式进行少数用户体验有关,但仅靠官方宣传难以全面评估其真实能力。

对于邀请码争议,昨日Manus相关负责人在朋友圈表示,公司从未开设任何付费获取邀请码的渠道,也未投放任何市场推广预算。

所以Manus是真实力还是营销炒作,仍有待更多第三方测评验证,当更多用户获得体验机会后,市场将给出最终评判。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章