新瓜,主角是昨天刚刚发布的Meta旗舰大模型——Llama 4。
内部爆料:性能不达标,压力下欲“优化”结果?
首先引爆讨论的是一篇来自“一亩三分地”论坛的帖子,发帖人自称是参与Llama 4训练的内部员工,并表示已因此辞职。
帖子内容信息量很大,主要说了几点:
-
1. 性能瓶颈: 尽管团队反复努力训练,Llama 4的内部模型性能始终无法达到开源SOTA(State-of-the-Art,顶尖水平)基准,差距明显。 -
2. “曲线救国”策略: 公司领导层提出,在训练后期,将各种基准测试的“测试集”数据混入训练或微调数据中。这样做的目的很直接——在各项指标上达成目标,交出一份“看起来很美”的成绩单 -
3. Deadline压力: 这个“刷分”任务有明确的时间线——4月底。如果届时无法达成目标,后果可能很严重 -
4. 用户反馈不佳: Llama 4发布后(帖子发布于模型刚发布时),X和Reddit上已有不少用户反馈,实际测试效果非常糟糕 -
5. 学术底线与辞职: 发帖人表示,自己有学术背景,无法接受这种“为了达标而污染测试数据”的做法,因此提交了辞职,并明确要求不要将自己的名字写入Llama 4的技术报告 -
6. 高管动向(帖中提及): 帖子还提到,Meta的AI副总裁(VP of AI)也因类似原因辞职。(博主注:此为帖子单方面说法,需注意辨别)
这篇帖子迅速引发了圈内关注,大家都在讨论这种做法是否违背了AI研发的基本诚信
这是后续,真实情况还有待于观察
外部观察:TechCrunch质疑测试版本“误导性”
无独有偶,知名科技媒体TechCrunch也发文,标题直指Meta新AI模型的性能测试“有点误导人”。
TechCrunch的文章主要聚焦于Llama 4(即Maverick)在著名的人类评估排行榜LM Arena上的表现。Maverick确实取得了第二名的好成绩,但这背后似乎另有隐情:
-
1. 版本差异: Meta提交给LM Arena进行测试评估的Maverick版本,和公开发布给开发者使用的版本,可能不是同一个 -
2. 官方标注: Meta在发布公告和Llama官网上其实也提到了这一点。他们明确说明,用于LM Arena测试的是一个“实验性的聊天版本”,或者标注为“专门针对对话场景优化的Llama 4 Maverick” -
3. “为榜单优化”的问题: TechCrunch指出,虽然LM Arena本身并非完美的评测工具,但过去AI公司通常不会(至少不公开承认)专门为了提升榜单排名而特供一个优化版本。Meta这次的做法,相当于针对基准测试优化了一个版本去打榜,却给开发者提供了未经特别优化的“基础版” -
4. 误导开发者: 这种操作会让开发者难以根据榜单排名准确预估模型在自己实际应用场景中的真实表现。基准测试虽然有局限,但本应提供一个相对公平的参考 -
5. 行为差异: X平台上的研究人员也发现,公开下载的Maverick版本,和在LM Arena上测试的版本行为确实不同。榜单上的那个版本更喜欢用表情符号(emoji),回答也明显更啰嗦
一些Llama 4的实测
号称千万上下文的召回率,上下文的实际表现,远低于预期
Llama 4 Maverick 在 aider 多语言编码基准测试中得分为实测仅为 16%
本文来源:AI寒武纪,原文标题:《大瓜来了!Llama 4 陷刷榜争议:“内部员工”发帖控诉,测评版本被指特供?》
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。