闷声干大事!DeepSeek悄然发布V3新版本。
没有发布会,没有媒体宣传,3月24日晚间,DeepSeek就这样“悄悄地”将其最新版V3-0324模型上传至Hugging Face。
根据社区测试和分析,此次更新虽然不是全新一代模型,仅属于“小版本升级”,但其编程能力已达到与Claude 3.7 Sonnet相当的水平,在某些测试场景中甚至表现更佳。
有网友表示,新版V3较上一代来说,相当于Sonnet 3.6之于Sonnet 3.5的飞跃。
还有网友指出,新版V3模型的编码能力完全超预期,堪称目前最强大的免费AI模型。
负载均衡策略:更高效的Moe架构
据介绍,DeepSeek V3-0324不是推理模型,采用了具有6710亿参数的专家混合模型(MoE),激活参数370亿。
为解决传统MoE模型中的负载不均衡问题,DeepSeek团队引入了创新性的“偏差项”机制,旨在帮助V3在训练过程中有效平衡专家负载,提升模型性能。
此外,V3还采用了节点受限的路由机制,以减少跨节点通信开销,提高训练效率,这对于大规模分布式训练至关重要。
这些技术创新使得新版V3在推理速度上实现了显著提升,使V3能在保持高效计算的同时,扩展到更多节点和专家。
编程能力再进化:一个提示词生成完整前端页面
根据国外开源评测平台kcores-llm-arena的最新测试数据,V3-0324的代码能力达到了328.3分,超过了普通版的Claude 3.7 Sonnet(322.3分),接近思维链版本的334.8分。
这一成绩意味着,新版V3已成为目前编程能力最强的开源模型之一。
实际测试中,用户用一个简单的提示词就让V3-0324生成了整个登录页面。
还有用户直观地指出,只是点了两次“continue”,看看生成的代码量有多恐怖!
再加上不限时、完全免费的“杀手锏”,可以说在前端开发层面,新版V3已经打败了OpenAI的o1-pro和GPT-4.5。
新版V3的审美也很在线,用户用同样的prompt生成的网页画面,新版V3的设计明显比上一版要好看得多。
根据prompt:“写一个精美的落地页,内容是deepseek v3发布”,这是上一版V3生成的网页:
新版V3的落地页则是这样:
开源协议升级:商业应用门槛大幅降低
不仅技术能力提升,DeepSeek还将V3-0324的开源许可与R1一样更新为MIT开源许可,这意味着新版V3有着比初代V3更宽松的开源使用条件。
公开资料显示,MIT许可以商业友好著称,使用该许可的项目可以与商业和专有软件自由集成。
这一变化对希望在商业项目中应用高性能AI模型的开发者和公司来说,可能是本次更新最具战略意义的改变。它进一步降低了AI技术的使用门槛,加速了技术普惠进程。
开源浪潮涌动,商业模型“瑟瑟发抖”
DeepSeek V3-0324的出现表明,开源AI模型正在以惊人的速度追赶甚至在某些方面超越顶级闭源商业模型。这种趋势正在给OpenAI、Anthropic等商业AI公司带来前所未有的压力。
正如海外用户所评论的:“很高兴看到这些开源模型继续给大公司施压,促使它们以更低的成本构建更好的模型。”
随着DeepSeek这样的开源模型不断提升性能并放宽使用条件,AI技术的民主化和普惠化进程正在加速,一个更加开放、创新的AI生态系统正在形成。
网友不禁感叹:DeepSeek简直让科技普惠成为现实!
还有网友大胆猜测:新版V3来了,R2还会远吗?