最新全球模型榜单：阿里 Qwen2.5-Max超DeepSeek V3

2025/02/05 10:49

在最新的全球大模型榜单中，阿里的最新大语言模型Qwen2.5-Max排名第7，领先于DeepSeek V3、O1-Mini和Claude-3.5-Sonnet等顶级专有大语言模型，在数学和编程方面排名第一，在处理复杂任务的硬提示（hard prompts）方面排名第二。

竞赛升温！最新全球大模型榜单发布，阿里新模型超越DeepSeek V3。

当地时间2月4日，在全球知名的AI模型评测平台Chatbot Arena公布了最新一期的榜单。其中，阿里通义千问团队的最新大语言模型Qwen2.5-Ma取得了优异成绩，在总体排名中跻身第7，领先于DeepSeek V3、O1-Mini和Claude-3.5-Sonnet等顶级专有大语言模型。

分别看打分项，Qwen2.5-Max在技术领域表现尤为出色，在数学和编程方面排名第一，在处理复杂任务的硬提示（hard prompts）方面排名第二。

继DeepSeek之后，Qwen2.5-Max的发布是中国AI阵营在高性能、低成本技术路线上的又一重要突破。市场人士此前分析称，外界此前过度聚焦DeepSeek，却忽视了包括阿里通义在内的中国AI整体性追赶。如果阿里Qwen-2.5-max的性能确实展现出预期水平，加之其低成本优势与完整云生态，或引发DeepSeek之后的中国AI资产新一轮重估。

1月29日凌晨，阿里通义千问团队悄悄上线Qwen2.5-Max，该模型一经发布便在MMLU-Pro、LiveCodeBench、LiveBench和Arena-Hard等主要基准测试中取得领先成绩，展现出与全球顶级模型比肩的性能。

据介绍，最新的Qwen2.5-Max采用了超大规模的专家混合（MoE）模型架构，预训练数据量超过20万亿个token，运用监督微调（SFT）和人类反馈强化学习（RLHF）技术进行优化，在知识、编程、通用能力和人类对齐等方面表现优异。