前段时间,UC伯克利主导的「LLM排位赛」备受圈内关注。
除了各类开源模型外,还有GPT-4、PaLM 2等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。
最近,来自斯坦福的团队,也发布了一款LLM自动评测系统——AlpacaEval,以及对应的AlpacaEval Leaderboard。
在斯坦福的这个排行榜中,GPT-4依然以绝对领先的优势夺得第一,胜率超过了95%。
紧随其后的是,胜率都在80%以上的Claude和ChatGPT。其中,Claude以不到3%的优势拿下第二,而ChatGPT则位列第三。
此次获得第四名的,则是一位排位赛新人——微软华人团队发布的WizardLM。
UC伯克利的Vicuna发挥依然稳定,凭借着超过70%的胜率排在第六。(夕小瑶科技说)