美团大模型来了!开源“龙猫”,性能追平DeepSeek V3.1,同样主打“算力节省”

01Founder
LongCat-Flash最具创新性的设计之一是 “零计算”专家机制,模型可以智能地判断输入内容中不同部分的重要性,并将计算量较小的任务分配给一个“零计算”专家,而该专家不进行实际的复杂运算,直接返回输入,从而极大地节省了算力。

刚刚,美团开源了他们的龙猫大模型LongCat-Flash。

一个拥有5600亿参数的混合专家(MoE)模型。

它不仅在性能上追求卓越,更通过一系列架构和训练上的创新,实现了惊人的计算效率和高级的Agent能力。

LongCat-Flash在保证强大能力的同时,将计算资源用在“刀刃”上。

它并非在处理每个任务时都激活全部5600亿参数,而是通过精巧的设计,实现了动态的资源分配。

LongCat-Flash最具创新性的设计之一是 “零计算”专家机制 (Zero-computation Experts) 

模型可以智能地判断输入内容中不同部分的重要性,并将计算量较小的任务(例如常见的词语、标点符号)分配给一个特殊的“零计算”专家。

该专家不进行实际的复杂运算,直接返回输入,从而极大地节省了算力。

得益于此,模型在处理每个词元(token)时,仅需动态激活186亿至313亿的参数(平均约270亿),实现了性能与效率的完美平衡。

在大规模MoE模型中,不同“专家”模块之间的通信延迟往往是性能瓶颈。

为此龙猫大模型引入了快捷连接混合专家模型 (Shortcut-connected MoE, ScMoE) 

ScMoE架构通过引入一个快捷连接,有效地扩大了计算和通信的重叠窗口,显著提升了训练和推理的吞吐量,让模型的响应速度更快。

为了让模型不仅能“聊天”,更能成为能解决复杂任务的“智能代理”,LongCat-Flash经历了一个精心设计的 为Agent而生的多阶段训练流程。

该流程包括大规模预训练、针对性地提升推理和代码能力的中期训练,以及专注于对话和工具使用能力的后训练。

这种设计使其在执行需要调用工具、与环境交互的复杂任务时表现出色。

一个有趣且值得关注的细节是,在官方的技术报告中,强调了LongCat-Flash是在一个包含数万个加速器(tens of thousands of accelerators)的大规模集群上完成训练的。

这个用词非常严谨。

在当前AI领域,虽然大家通常会立刻联想到NVIDIA的GPU,但“加速器”是一个更广泛的概念,它可以包括Google的TPU、华为的昇腾(Ascend)或其他专为AI计算设计的芯片。

官方选择使用这个词汇,而没有明确指出是“GPU”,这为硬件的具体来源留下了一定的想象空间,也体现了其在技术陈述上的精确性。

无论具体是哪种硬件,在如此庞大的集群上,于短短30天内完成超过20万亿词元的训练量,都足以证明其背后基础设施的强大与工程优化的卓越。

LongCat-Flash的工程优化成果最终体现在了用户可感知的性能和成本上:

极高的推理速度 :推理速度超过100词元/秒(TPS)。

极低的运营成本 :每处理一百万输出词元的成本仅为0.7美元。

强大的综合能力 :支持128k的长文本上下文,并在代码、推理和工具调用等多个方面展现出与业界领先模型相媲美的竞争力。

为了更直观地展示 LongCat-Flash 的实力,我们来看一下它与业界其他顶尖模型的详细评估对比。

美团的 LongCat-Flash 模型在各项基准测试中展现出了非常强劲且极具竞争力的性能。

它不仅在多个方面与业界顶尖的开源模型(如 DeepSeek V3.1, Qwen3)旗鼓相当,甚至在某些特定能力上实现了超越。

通用领域能力 (General Domains) 在衡量模型通用知识和推理能力的测试中,LongCat-Flash 表现稳定且出色。

MMLU / MMLU-Pro :

这是衡量模型综合知识水平的核心指标。

LongCat-Flash 的得分(89.71 / 82.68)与 DeepSeek V3.1、Qwen3 MoE 和 Kimi-K2 处于同一梯队,证明了其扎实的基础知识和推理能力。

ArenaHard-V2 :

这个基准更侧重于模型作为聊天助手的“体感”和处理复杂指令的能力。LongCat-Flash 在此项得分 86.50 ,超过了 DeepSeek V3.1,与 Qwen3 MoE(88.20)非常接近,这说明它的对话和推理能力非常优秀。

中文能力 (CEval / CMMLU) :

作为中文领域的权威测试,LongCat-Flash 在 CEval 上表现优异(90.44),在 CMMLU 上也保持了不错的水平,证明其对中文语言有很好的支持。

指令遵循(Instruction Following)这是 LongCat-Flash 最突出的亮点。

技术报告中提到,模型为“Agent”能力进行了专门的多阶段训练,而评估结果也印证了这一点。

IFEval & COLLIE :

这两个基准专门评估模型理解并执行复杂、多步骤指令的能力。

在 IFEval 上,LongCat-Flash 的得分(89.65)名列前茅,超越了 DeepSeek V3.1,与 Kimi-K2 和 Qwen3 MoE 并驾齐驱。

在 COLLIE 测试中,LongCat-Flash 取得了 57.10 的高分, 在所有参与对比的模型中排名第一 。

这强有力地证明了它在执行需要调用工具、与环境交互的复杂“智能代理”(Agent)任务方面的卓越能力。 

目前,LongCat-Flash模型已经发布在Hugging Face和Githiub社区,并遵循MIT许可协议。

全球学术界和产业界的研究者、开发者都可以自由地使用和探索这个强大的模型,共同推动AI技术的发展。

本文来源:01Founder,原文标题:《突发,美团开源龙猫大模型,性能追平DeepSeek!》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章