今天,Mistral AI推出了Mistral Large 2。Mistral Large 2拥有1230亿参数。在多个基准测试中(特别是在代码生成和数学领域),表现优异,甚至与Llama 3.1 4050亿参数相媲美。像Mistral NeMo一样,它经过大量源代码和多语言数据的训练,提供高级函数调用功能。
试用:chat.mistral.ai
主要特征
多语言设计:支持数十种语言,包括英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语
精通编程:接受过Python、Java、C、C++、Javacsript、Bash等80多种编码语言的训练。还接受了一些更特定的语言(例如 Swift 和 Fortran)的训练
以代理为中心:一流的代理功能,具有本地函数调用和 JSON 输出功能
高级推理:最先进的数学和推理能力
研究许可:允许用于研究和非商业用途的使用和修改
大上下文:128k 大上下文窗口
在HumanEval和MultiPL-E测试中,Mistral Large 2的表现超过了Llama 3.1 4050亿指令,仅略逊于GPT-4o。在MATH测试中(零样本,无CoT条件下),它稍逊于GPT-4o。
在多语言MMLU测试中,Mistral Large 2的性能显著优于Llama 3.1 70亿基础版(平均提升了6.3%),与Llama 3 4050亿参数的性能相当(仅低于0.4%)。
与之前的Mistral Large相比,在模型对齐和指令遵循能力上投入了更多精力,新的 Mistral Large 2 在遵循精确指令和处理长时间的多轮对话方面尤其出色,在WildBench、ArenaHard和MT Bench测试中,它的性能与最佳模型相当,同时显著减少了冗余输出。
本文来源:AI寒武纪,原文标题:《【模型大战】Mistral 推出了Mistral Large 2:对标Llama 3.1 405B》