一张图读懂 2023/06/16 12:30

斯坦福最新LLM排行榜发布！华人团队WizardLM开源第一，GPT-4、Claude稳居前二

前段时间，UC伯克利主导的「LLM排位赛」备受圈内关注。

除了各类开源模型外，还有GPT-4、PaLM 2等众多「闭源」模型，甚至还开设了一个「准中文」排行榜。

最近，来自斯坦福的团队，也发布了一款LLM自动评测系统——AlpacaEval，以及对应的AlpacaEval Leaderboard。

在斯坦福的这个排行榜中，GPT-4依然以绝对领先的优势夺得第一，胜率超过了95%。

紧随其后的是，胜率都在80%以上的Claude和ChatGPT。其中，Claude以不到3%的优势拿下第二，而ChatGPT则位列第三。

此次获得第四名的，则是一位排位赛新人——微软华人团队发布的WizardLM。

UC伯克利的Vicuna发挥依然稳定，凭借着超过70%的胜率排在第六。(夕小瑶科技说)

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。