为了对ChatGPT进行基准测试,OpenAI对GPT4和GPT3.5模拟了各种专业的学术考试,其中包括“美国高考”(SAT)、研究生入学考试(GRE)、律师资格考试和物理、化学、生物等各种美国大学先修课程(AP),共计16项。
成绩以百分位数来衡量。如果你在考试中排名第60百分位,则代表你的成绩高于60%的应试者。
如下图所示,GPT3.5的测试结果显示,成绩前五的分别是SAT循证阅读与写作(第87百分位)、AP心理学(第83百分位)、SAT数学(第70百分位)、GRE口语(第63百分位)和AP生物(第62百分位)。
但值得注意的是,除了上述五项测试和GRE写作(第54百分位)之外,剩余10项测试结果显示,GPT3.5只能排名“中等偏下”,均不及50百分位。
相比之下GPT4的成绩则有显著优势,共有三项课程排名超过90百分位,分别是GRE口语(第99百分位)、SAT循证阅读与写作(第93百分位)和律师资格考试(第90百分位)。
此外,共有12项课程排名50百分位之前,其中GPT4律师资格考试、GRE数学、AP化学等测试中取得了至少50个百分位的进步。
但是在AP英语语言、AP英语文学和竞争性编程的测试中,GPT4和GPT3.5都显得颇为不擅长。(来源:visualcapitalist)