申万宏源:KIMI确认爆款!国内语言大模型正式达到GPT-4水平

申万宏源证券
申万宏源分析师认为,月之暗面KIMI在长文本单点能力上实现突破,精准定位办公人群,更适用于高效阅读、专业文件解读、资料查询、资料整理总结等方面。

核心观点

1)市场可能认为海外大模型迭代放缓,但我们认为2024年模型能力仍然快速迭代。包括OpenAI以外的其他模型能力追赶、Llama3等开源大模型发布、下半年OpenAI的新模型迭代等;

2)市场可能认为国产大模型能力与海外差距极大,无法支撑任何应用,我们认为kimi等表明国产文字大模型能力已经达到GPT4水平,期待后续推理、数学、多模态等能力的迭代。

3月18日,月之暗面宣布其AI产品kimi,在大模型长上下文窗口技术上取得新的突破,Kimi智能助手已支持200万字超长无损上下文,并于即日起开启产品内测。Kimichat是月之暗面推出的对话助手工具,于2023年10月10日发布,发布之初即定位长文本。

支持输入20万汉字,是目前国产大模型中支持的最长上下文输入长度,2024年2月,kimi迭代了网站、多问题搜索能力,可用性继续提升。

3月,上下文能力达到200万字。

多次迭代后伴随着Kimi用户活跃度提升,2月平均日活同比上升101.9%,3月前二周继续攀升。

更长的上下文能力意味着更多的实用场景。1)全文总结和生成:通过提问和文件上传等功能,能够迅速对众多文献和报告进行摘要提炼;2)联网搜索:能够搜索实时信息,迅速整合并给出详尽回答,同时提供信息来源,确保对话的丰富性和准确性;3)数据处理:把繁杂的数据整理成表格,以助于数据分析。除此以外Kimi还支持编写代码、用户交互、翻译等功能。

根据我们内部测评,国产大模型Kimi文字能力全面达到GPT-4水平。Kimi中英文生成能力已经接近GPT-4水平,尽管逻辑推理能力仍有差距,且主打文字生成、目前无多模态能力;Cluade3中英文生成、理解、推理,多模态图片理解能力均与GPT-4接近,效果好于Gemini,且实际使用中生成速度快于GPT-4和Gemini。

我们认为其在长文本单点能力上实现突破,精准定位办公人群。Kimi支持200万汉字的长文本输入,对比来看,GPT-4Turbo-128k的能力是约10万汉字,Claude3200k上下文是约16万汉字。因此,Kimi更适用于高效阅读、专业文件解读、资料查询、资料整理总结等方面。

1)专业论文要点归纳总结任务的表现和GPT4大致相同,响应迅速,约10秒可以读完论文并给出回答。回答内容简要,并能够根据文档回答追问。

专业论文要点归纳总结任务的表现和GPT4大致相同,响应迅速,约10秒可以读完论文并给出回答。回答内容简要,能够根据文档精准回复追问,体现了模型较好的逻辑推理能力。

2)资料整理总结方面kimi在会议纪要总结能力上具有优势,选取一场会议的录音转录文本(分成两份pdf)给到模型进行文本纠错和全文总结,kimi的纠错能力和总结能力强于GPT4,例如kimi能根据上下文将“贝尔BT这个T23,T五”这个乱码纠正为“BERT”,并告知可能指BERT模型,其全文总结结果也比GPT4结果更具可用性。

3)能够针对提问自动联网搜索总结回答,答案提供信息来源,更具可靠性。例如下图问kimi关于谷歌2024的最新新闻,基本涵盖了所有要点新闻,总结也到位。

总体来说,我们认为kimi的优势在语言理解、长文本处理、逻辑推理能力上,数学解题和多模态能力暂缺或稍弱。其长文本处理能力让论文总结、会议纪要变得更具可用性,加上联网搜索功能,对于需要查阅大量信息和处理会议纪要的办公人群有极大助力,未来办公类AI应用或将受益。

Kimi成功启示:我们认为团队成员能力、资金储备、时间可能是Kimi目前较为成功的原因。

1)月之暗面(Moonshot)由清华大学交叉信息学院杨植麟教授领衔,团队成员包括来自Google、Meta、Amazon等国际科技巨头的人才,在Gemini、盘古NLP、悟道等多个大模型研发中有参与;

2)公司成立后获红杉中国、真格基金等机构投资,最新一轮融资超10亿美元,投资方包括阿里、红杉中国、小红书、美团等,估值达25亿美金;

3)月之暗面成立于2023年3月,此时chatgpt的全面成功,使得业界大模型已基本确认Decoder-only+VQA的技术路线,有效避免了此前由于技术路线分歧造成的开发资源浪费。

截至目前,国内大模型的文字生成能力已经整体接近GPT-4Turbo。1月30日,上1海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0等。

但同时根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距。评测显示,推理、数学、代码、智能体是国内大模型的短板。GPT-4Turbo在涉及复杂推理的场景虽然亦有提升空间,但已明显领先于国内的商业模型和开源模型。这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。

整体来看:

1)市场可能认为海外大模型迭代放缓,但我们认为2024年模型能力仍然快速迭代。包括OpenAI以外的其他模型能力追赶、Llama3等开源大模型发布、下半年OpenAI的新模型迭代等;

2)市场可能认为国产大模型能力与海外差距极大,无法支撑任何应用,我们认为kimi等表明国产文字大模型能力已经达到GPT4水平,期待后续推理、数学、多模态等能力的迭代。

本文作者:证券分析师 洪依真 A0230519060003  刘洋 A0230513050006 林起贤 A0230519060002,来源:申万宏源证券

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章