以下为3月27日华福证券研究所AI互联网首席【杨晓峰】会客厅纪要:90后搞AI获13亿美金融资!国产大模型追上GPT4?
核心观点:
1. AI搜索是AI技术发展的一个重要方向,Kimi主要满足的就是对优质内容的搜索需求,以及文本处理需求。
2. Kimi比GPT4好用的核心的原因是在工程化上投入相对较大的力度,这也说明中国的互联网公司对用户的理解会更深一些。
3. 在行业的变革期,小公司的组织架构效率比大公司要高,只要获得了一定的资源发展速度是非常快的。
4. 微软云加上open AI,给AI创业打了一个非常好的样本,就是本身产品能力强加绑定一个大的云计算厂商。
5. AI技术的商业化正在加速,B端和C端的发展是共生的。成功的AI公司需要持续迭代产品,并结合云计算能力来降低成本,以实现长期的盈利和竞争优势。
纪要正文
华尔街见闻:
根据AI最新产品榜单,Kimi在2月份的访问量增速达到了107%,排进了国内前三名,仅次于百度的文心一言和阿里的通义千问。而且,Kimi的试用口碑已经超过了这两者。究竟Kimi拥有怎样的魅力呢?
杨晓峰:
首先我们来了解下是什么场景中会使用这个产品的。举个例子,我们过去会发现互联网上有很多优秀的资料,所以很早之前我们都是在PC上去搜索这些文件内容。但慢慢地,我们发现这些优质内容逐渐出现在公众号里,大家可以看一下,每天阅读的文本内容,越来越多出现在公众号、雪球、知乎等平台。
为什么Kimi能够快速崛起呢?我们可以想象,过去在微信里经常会搜索一些新的东西或新事件。在这个过程中,因为我其实过去看的是一些公众号的优质内容,但慢慢地发现,如果使用Kimi这样的产品,也在微信里完成搜索,而且结果回答得更好。
在这个背景下,搜索需求可能从PC端转移到微信,再从微信搜索公众号的优质文章,变成了在Kimi里搜索这种优质内容。因为你会发现,公众号里有非常多的内容,但Kimi帮我筛选了一些优质内容,并且进行了总结。
所以我们发现,在微信生态里,很多搜索需求开始转移过来,并且大家发现效率其实还不错。比如,二级市场的很多朋友,手机里可能有很多文件,当然学生和白领也会发现,他们在微信办公过程中,手机里存了大量的文档。而这些文档在手机里的位置比较难找。有时候想找一个手机里刚刚下载的文件,目录其实很混乱,很难找到。但Kimi的小程序可以直接导入文件传输助手里的某个文件,很好地找到这个文件,并且帮我分析。Kimi满足了我们很大的AI搜索需求,以及文件处理需求。
这种情况在海外会不会有类似呢?我们也了解了海外的一些产品。有人问黄仁勋,他最常使用的AI产品是什么?他提到的不是OpenAI的GPT,也不是谷歌的Bard,而是叫Perplexity。这个产品在美国是AI搜索,也就是说,美国有很多人在PC端搜索,不是用谷歌,也不是用其他搜索软件,而是用Perplexity,因为它可以帮你筛选优质内容,并且总结出来。在美国有很多人在使用这样的产品,其实跟国内的Kimi非常相似。
Kimi到底满足了我们什么样的需求?主要满足的需求就是对优质内容的搜索需求,以及文本处理需求。
那么,为什么突然间像Kimi这样的产品效果这么好?举个例子,过去Sora刚出来时,很多新名词我们其实很难理解,比如DiT(Diffusion Transformers)、spacetime patches这些新概念。我们可以通过Kimi来达到这样的效果,比如在Kimi里搜索DiT是什么,它会帮我搜索网络上相对专业的资料,可能来自知乎,可能来自一些计算机网站。它帮我过滤了一道,然后在过滤过程中又通过总结的方法帮我总结了文章里的优质内容。这样的效果基本满足了我的搜索需求,既有专业性又有总结干货。
或者还有一些优质的论文,比如我们在研究Kimi成功背后时,研究了创始人写过的论文,他写的论文是无损压缩。这样一个无损压缩的论文出来后,我们很难理解。在这种情况下,我可以直接扔给Kimi,它帮我总结出来,我就大概知道是怎样做到一个无损压缩的。这样就满足了我们的需求。所以说,其实这个产品做得比较好的核心原因,就是因为它帮我们做了很多工程化的能力,相当于帮我筛选了非常多的优质内容,然后用它的模型整理,给了我们一个很好的效果。
那么,为什么很多大模型公司的效果可能没有这么好呢?哪怕GPT4也是一样的。GPT4一直没有推出一个很好的搜索产品。为什么呢?因为它是全网搜,它没有帮你找到一个好的资料源,同时它在整理的时候是一个通用模型,它并没有把模型调整成一个专门适合整理的。
举个例子,现在想问为什么今天某板块发生了什么,如果用Kimi搜的话,Kimi帮我很精准地定位到很多优质内容,比如华尔街见闻的网站、雪球的网站、金融界的网站。它会帮我把优质内容找出来。然后,如果它能筛选出这样优质的文章,给我的答案来分析的话,基本上效果就非常好。
但是OpenAI就不会,它全网搜所有的资料,在这个过程中也不一定愿意帮你每篇文章都整理,因为这样会消耗它很大算力,所以最后的结果你会发现给你的答案就不太好。这就是目前Kimi在资料整理方面做得非常优秀的地方,导致给我们的答案非常好。
我们可以退一万步说,哪怕Kimi的模型一般,但只要资料整理得好,把好的资料整理好了,它很容易就回答我非常优秀的问题。这就是我们发现Kimi在过去中表现非常好的一个点,就是它给我们资料搜索了很多优质资料。那么另一方面,确实它的模型能力也是比较OK的。我们最近在测试它的模型中,发现它其实本身的模型能力也不差。那么再叠加它资料收集的能力,效果就会非常好。
为什么说网页资料Kimi做得好。为什么我们给它大量的文件,比如给它几年的高考试卷或考研试卷,它也能帮我们总结得很好。其实我们会发现,Kimi对这种很长的文件,应该是有比较好的梳理逻辑。
再给大家举个例子,比如我们现在让大模型去读一篇博士或硕士论文,如果我每个字都去读,它的效率其实非常低。但大家都可能经历过这样一个过程,对于硕士论文、博士论文,我是否主要是先去看一下它摘要,它主要写了什么?或者说它的目录写了什么?或者说每一段的标题大概写了什么,我就迅速能定位到这个报告写的是什么内容。
那么如果我能够对一篇文章的核心结构有很好的把握,我去分析这些内容效果就非常好。所以我们会觉得Kimi优秀的地方就是在网络资料的整理方面筛选得比较好。同时对于文件,它其实结构和处理得比较好。
那么我们用专业的术语来说,就是它做了一个很好的无损压缩,而且这里可以把几百万的字压缩到一定数量级的文字,这样的话对它而言其实也是有帮助的。比如200万字压缩到20万字,对它的算力需求而言也是相对比较有优势的。所以在这个过程中有很多工程化的能力在里面,保证了一些核心内容,又把一些相对而言不重要的内容给压缩得相对比较多,这就是我们发现Kimi在整个过程中达到的一个很好的效果的核心原因。
大家一定也很关心未来Kimi这样的产品的发展趋势,参考海外的类似产品,如果你未来成为一个会员,可能你会有更多的资料可选择。比如说现在,如果我用Kimi去搜索一个优质内容,它大概可能给我5到8个网页,或者5到8篇优质的内容。那么在海外如果你是会员,可能给你15到20篇优质的内容,也就是说信息源扩大了。
另外一点就是在海外,如果说你充值成为了会员,你可以选择用GPT4帮你整理,也可以用Claude 3整理,就是市面上比较热门的模型你都可以选择。所以说Perplexity在海外,我们估计也是接了很多的API,就相当于说你只要付了会员费,你想要怎么样的整理水平,我可以给你接更好的模型。这就使得这个产品可以满足更多人的不同场景的需求。
Kimi未来会不会也帮我们提高这个资料来源?从5篇到8篇。未来会不会在一定的背景下提高到20篇甚至30篇?因为我们都知道他的能力已经达到了,但是5-8篇,对算力而言可能是相对比较节约的。
Kimi未来是否会提供一个比现在更加强大,整理的效果更好的模型?这就蕴含了AI搜索这个赛道未来非常大的机遇。海外已经实现了这样的一个产品的进阶,所以我们可以看到为什么黄仁勋每天都用的这个产品是Perplexity。我们可以期待国内产品,比如Kimi也会达到类似的水平,尤其是我们发现就是在目前的背景下,Kimi这个免费版竟然是比海外的免费版效果还好,达到了海外的这个Perplexity免费版和付费版之间的效果,所以我们也非常期待,就说国产应用起来是速度是非常快的。
未来Kimi还会有哪些性能的提升呢?我们都知道,目前海外模型都在冲刺GPT4,尤其是海外的模型慢慢地都可以开始读图以及一些新的内容。海外的模型开源的进度也越来越快了,就像Meta本来是打算7月开源的,因为竞争太激烈,号称是在4月底到5月中旬又要开源了。那么它一开源,全球的水平又会上一个台阶。技术一定会有很大外部性。那么我们相信像Kimi这样的产品,未来在开源的技术上能够实现更好的效果。
比如说我们现在看到Kimi有很强的读OCR的能力,扫描了一篇优质的报告,可以非常好的阅读理解。但是我们会发现它主要读的就是OCR,并没有对图片里的信息进行一个解构,也就是说它能抠出扫描文件里的文字数字,但是要去理解图片里什么样的含义,这个还有待提高的。随着开源的发展,像GPT4那样去理解图片的意思,这个难度会越来越低。
或许Kimi未来能够进一步去读我们平时生成的图片。比如说有一张图表,它反映的是一个行业的增速,以及渗透率等等数据。现在可能只是读PDF,以及网络搜索,未来是不是可以理解图片甚至是视频,因为视频切成一帧一帧的话也是可以被读取的。当然这个技术还取决于Kimi本身是否有这样的技术积累,或者海外开源后大家有没有这样的一个技术进阶。
所以我们从未来的技术路径来看,我们就是说像Kimi这样的一些AI搜索产品,有一个非常大的进阶空间。当然大家也非常关注,这个产品从目前的角度来看,未来的天花板在哪里?大家可以想象一下,如果它真的成为我们平时重要的一个搜索以及资料整理的工具的话,对标海外,就是谷歌搜索的市场空间,国内也是一个非常大的搜索市场空间。因为大家一定是希望越来越高效地获取信息,而不是像过去那样从广告里挑一些内容。
所以我们会觉得说它的市场是非常大的,当然它也要从这个慢慢地从小程序、APP、PC、网页慢慢地走出市场规模。我们可以看到的是,比如说对于网页是否说有更大的用户渠道去使用它?比如说对于APP是不是有更多的人像使用浏览器一样去使用它去搜索更多的内容?那么比如说像这个就是微信小程序能否帮我们烧炉更多的内容?所以我们会觉得说Kimi这样一个产品的市场规模其实非常大的,就是覆盖了AI搜索以及做很多的办公文档整理。
我们觉得核心就是看Kimi后续在战略上怎么样去获取更多的这样的用户群体,这个是我们介绍的就是未来的市场空间,以及新技术可能对Kimi这样的产品未来的一个衍生。
另外一点我们可以看到Kimi目前来看进展还比较快的就是API。前阵子Kimi也透露自己要向更多的公司开放API。其实Kimi在这方面其实优势还是非常大的,过去好用的API比较少,随着Kimi的推出,市场上B端用户也会感受到有更好的API可以用了。
在国产AI应用还没有崛起之前,大家可能连C端的好产品都没有。现在C端产品好了,是否可以用它的API去做更好的一些B端的产品?或者接了Kimi的API以后,去更做更好的C端应用?我们会发现Kimi除了主站效果比较好,其实慢慢地也开始达到一个给B端赋能的一个阶段,我们非常看好这个Kimi带来的未来市场。
当然也要根据这个行业的一些技术变革,尤其是全行业都在向GPT4冲刺的背景,以及用户未来增加以后,他的获客战略和盈利模式,这都是后续我们需要讨论的。但是目前从市场空间以及目前的用户反馈情况来看,已经看到中国AI崛起的一个非常好的趋势了。
华尔街见闻:
现在Kimi已经有很多人使用,无论是反应速度还是准确性,大家普遍认为Kimi甚至可能超越了GPT4。关于这一点,您如何看待?在与其他大模型比较时,行业内是否有一些标准的衡量指标?
杨晓峰:
Kimi的基础模型能力还比较过关,同时它更优秀的地方是在工程化。当为我们向GPT提问,它其实是用内生的资料帮我们回答,但是内生资料是有很大可能会有很多的欠缺的。Kimi做了一个工程化是什么呢?它把模型的能力更加注重去做一个整理,或者总结,当Kimi能够找到非常优秀的资料,并且总结出来,那给用户的感觉而言就会比GPT4好很多。
核心的原因是在它在工程化上投入相对比较大的力度,这也说明中国的互联网公司对用户的理解会更深一些,更加能从用户视角来看问题。产品的目的是能够满足用户的需求,而Kimi最核心的就是抓住了这样一个工程化的点。
如何去评价一个模型的好坏和效果?其实每家的大模型发布以后,都会给大家看一些指标,各家的指标也都不同,似乎有失客观。早期大家更多是通过一些海外的题库,用GPT4来测试,形成一套评价体系,因为当时GPT4是遥遥领先的。
而现在越来越多的模型从能力上已经接近GPT4了,所以海外现在都是采用一些新的方法来评价,比如有种叫ELO模型,这种评价体系是让不同大模型之间先一一对比互相答题,获胜方加分,输方不加分或者少加,然后通过国际象棋类似的赛制,最后结算总分,谁的分数高谁就排名高。
所以最近我们看到在海外的一些榜单里面,排名跳到第一的竟然是Claude 3 Opus,已经超过GPT4-1106这个版本,第三名是GPT4-0125这个版本,那就说明其实海外也是在通过各种的评分去竞争,而且在这个背景下我们可以看到甚至Claude有一个版本超过了GPT4,那么用GPT4再去评价就不太合适了。当然这个大模型的榜单其实是一直在变的,所以我们刚才说的就是目前的榜单的排名。
其实对于我们大多数人来说,自己用几套题去测试也是比较方便的。大家可以去找一些相对比较难的高数题,最好有三个小题,用同样的题目问一下各家模型,很容易知道各家的水平了。我自己也经常试,比如说之前有一道曲线旋转形成体积的题,我有时候去问GPT4,会发现白天基本都是对的,在晚上都是错的,为什么呢?因为在国内白天的时候,美国人睡觉了,GPT4的算力是比较充裕的。用的人多了它的性能就下降了。
现在实际上美国人用的模型也不一定跟我们国产的差很多。举个例子,比如说有一座大桥,GPT4能叫出大桥的名字,但如果在晚上测试的时候,它只告诉你这个有一个河,河上有个桥也叫不出名字了,这样的水平其实对于国内很多大型模型公司而言,在算力、精度全开的背景下也是能达到的。
所以我们在测评这些模型的时候也要考虑到实际的使用场景,它可能在算力紧缺的时候就降了性能,在算力闲置的时候就性能全开了。大家也可以自己去测一测,找一些优质的数学题,在不同的时间去测试,得到答案也是不一样的。我觉得这个测试方式相对而言比较客观,因为自己随机选的题不太会被训练过
华尔街见闻:
哪些因素是一个人工智能的新兴科技公司成功的核心?在判断一家企业的成长性的时候,我们可以重点关注哪些方面呢?
杨晓峰:
其实我们主要看创始人有没有核心的竞争力,那么我们都知道Kimi的核心竞争力就在于能够对很长的文本进行总结。所以我们特别去看了一下,像Kimi的核心创始人杨植麟,他写过两篇关于无损压缩的文章,大家可以想象一下,他写的两篇核心论文,都是告诉大家怎么样去读非常长的文章,并且把它总结下来,或者说在一定程度上压缩,并且保留高质量的信息。如果说这些论文能够告诉我们如何无损压缩的话,我们去做长文本就很有优势了。比如像刚才我们举的例子,如果我能够解构好一篇硕士论文,能抓住它的目录、摘要,以及每一行的标题,那么就能抓住整个论文最核心的部分。
我们相信未来读很多长文本这个能力很有优势,而这位创始人写了两篇论文,说明他在这个领域有常深耕的,这也就是企业的核心能力。另外,对于创业公司而言,相比大公司还有一个优势,就是它可以all in做一个产品,而大公司需要上层领导非常清楚哪个项目有潜力,才会分配预算给你。但是创业公司锚定一个方向以后只要有资金支持,就很容易做起来,整个核心就是能解决一个问题。
那给大家分享一个例子,2023年大模型刚出来的时候,OpenAI的API还没有向大厂开放,在海外其实很多音箱的智能化水平是很低的,如果做一个白牌的音箱,接入GPT的API,这样可以做一个非常好的AI语音助手。但是像我们个人去创业有个几个很大的问题,第一我没办法实现几万人同时访问,还有就是如果做一个付费体系,也不一定能防止黑客黑入账户修改金额等等。所以对小公司而言最大的问题就在于,可能有好的想法,但是不具备基础的互联网能力。但当小公司里面有了核心的技术人员能够解决这些问题,或者有大厂经验的人才,那产品就很快就做起来了,剩下的就是募集资金的问题。
Kimi的核心团队有在大厂的经验,同时又融到钱了,那再加上自己的想法,很容易就起飞了。反而是大厂,我们会发现决策流程会比较慢,除非是在行业成熟期,这个赛道已经被证明就是对的,那以自上而下去砸很多的资源去做。所以我们发现在行业的变革期,小公司的组织架构效率是比大公司要大一些的。像Kimi经过了阿里的投资以后,发展速度就非常快。
举个例子来说,比如说像最近Kimi热度这么高的背景下,也会出现宕机,如果说没有阿里支持的话,可能就是整个过程中算力就比较难衔接,多来几次宕机,用户的体验就下去了。所以其实像Kimi这样的公司成功,一方面是本身核心团队的技术实力,另一方面也是获得了大厂的支持,很容易就起飞了。
对比移动互联网时代,创业公司最想要的是流量,有了流量就容易成功。在AI时代,最需要的是算力支持。如果有大公司支持算力,用户越多,使用的算力越多。所以,能够背靠大厂算力的公司更容易成功。微软云加上OpenAI,为AI创业提供了很好的样本。产品能力强加上绑定大的云计算厂商,这样的成长路径就会成功。就像过去一样,绑定好的产品和流量也能成功。这是Kimi等成功的一个重要原因。
华尔街见闻:
长的文本输入并进行处理是现阶段大模型能否成功的核心考虑要素吗?
杨晓峰:
这个影响还是比较大的。目前互联网内容越来越多,资料也越来越多,长文本处理需求越来越高。因为要从大量资料中找到优质资料,难度非常大。很多公司都说要开放长文本,像阿里、360智脑和百度文心一言都在开放和测试长文本处理能力,这说明市场有很大需求。
尤其是在移动互联网发展多年后,网络上资料越来越多。但人的时间有限,非常需要有人帮我们提取优质资料。例如,我们现在看到优秀的海外论文,一页一页翻译理解难度很大,但如果有一个长文本读取能力强的工具,就能很方便地帮我们总结所需资料。或者说,如果我们想咨询法律问题,过去可能不了解法条,但现在我们可以把所有法律条文都输入进去,然后咨询自己的问题,看看有没有相似的案例,问题就解决了。
所以,长文本处理能力给我们带来了很大的想象空间,让我们能够更全面地筛选内容。我们的工作变得更加注重筛选优质内容,但质量还在大幅提升。所以我认为,长文本能力在未来肯定越来越重要。
华尔街见闻:
您认为微信小程序未来会是一个主要的增长环境吗? 还有哪些潜在爆发环境?
杨晓峰:
我认为PC端、APP端和小程序端都是重要的发展趋势。我们可以想象一下使用场景,现在搜索的人都在哪里搜索?电脑端肯定需要搜索,那就在网页里。有些人可能在手机端使用传统浏览器搜索,这意味着独立的APP也有需求。当然,有些人可能在微信里搜索,所以微信里的小程序搜索也是正常的。
在海外,大约一半的人在PC上搜索,一半的人在手机浏览器上搜索,还有越来越多的人在APP里使用AI搜索。所以我认为未来三端都需要同步发展,因为不同场景有不同的需求。可能刚开始时小程序更便携,但最近APP的增长速度也非常快。我们还可以看到,PC端也有需求,因为很多人办公还是喜欢用电脑。所以,小程序、PC端、APP端是一个三端互补的状态。在这个背景下,我们需要对每个版本做一些优化。所以,未来增长的机会还是相对比较大的,不一定说哪个端口会有影响。
我们觉得用户的增长会从二级市场扩展到更多的白领和学生群体,也会从一线城市扩展到更多线的城市。我们做了一个小实验,大家可以试一下,打开你的小程序,搜索Kimi,它会告诉你有多少好友正在使用。你可以用这个数据除以你的好友数,大概了解渗透率的情况。我们发现,在二级市场火热的时候,有些同事的好友里有5%-10%的人都使用过这样一个产品。我们也去找了一些互联网公司做软件开发的人,发现他们的好友里可能有1%左右的人使用过。在低线城市,可能几百个好友里只有一两个在使用。
随着更多人使用,或者舆情上升,会慢慢普及开来,因为效果确实很好。很多人在很早之前就开始使用了,只是最近出圈后使用的人越来越多。所以我们认为,这个产品未来会慢慢出圈,主要原因是对搜索需求的人很多,尤其是对高质量搜索的人特别大。还有对白领人群来说,他们对文件处理的需求也很大,这是未来可能的一个爆发点。
华尔街见闻:
在使用超长文本能力的Kimi时,杨总有觉得有趣或印象深刻的例子可以分享吗?
杨晓峰:
我觉得法律方面使用比较好。很多人可能对法律学习不多,很多法条都不太熟悉。我们可以把很多法律条款全部输入,然后问一些法律相关的问题,效果非常好。因为平时我们不会记忆这么多法律法规,法条。在这种情况下,我们可以很好地理解一些场合下怎样是合法的。
还有,我们在做投资时也需要了解很多年报、财报。我们可以把很多年的年报、各种财务报表都输入,然后看过去公司对财报年报表述是怎样的口径,以及对公司未来的展望是否达到。所以,对于过去看起来有几十页的文章内容,我们现在可以很精细地分析、总结,挖掘出很好的趋势。
华尔街见闻:
国内外AI多模态大模型的持续突破,您认为哪些下游领域可能最先受益?
杨晓峰:
目前来看,AI搜索是第一个爆发的领域,像Kimi这样的产品在搜索方面表现出色。此外,办公和教育领域也将大大受益。办公领域因为AI的应用显著提高了信息获取能力和内容生成的便利性。
在教育领域,AI将成为我们思考问题的重要辅助工具。例如,如果我们想了解海外哪些公司受到AI的正面影响,过去可能需要进行大量搜索和分析,现在则可以直接通过AI搜索得到答案。
在科研领域,我们可以更全面地阅读相关领域的文献,并借助AI进行总结和分析,大幅提升研究能力。
因此,AI搜索、办公和教育将是最先落地并广泛应用的领域。同时,我们也看到了AI智能硬件的发展,比如AI智能手机和AI智能电脑,它们在未来也将为用户带来显著的变化和提升。
华尔街见闻:
像Kimi这样优秀的文本处理大模型,是否也很快能够突破从文本到视频,最先赶上OpenAI?
杨晓峰:
目前的发展趋势是,文本模型需要从3.5版本升级到4版本,这是一个巨大的突破。在4版本的基础上,还需要发展多模态能力,即能够识别和理解图片中的信息。之后,才会逐渐进入到视频生成的阶段。所以,大模型公司还有很长的路要走。首先是从文本模型升级到多模态模型,然后才能处理视频内容。
当然,未来可能还会有更多的发展,比如GPT的后续版本,文生3D以及更好的语音模型等。整体来看,AI的发展是一个不断迭代的过程,同时还要依赖于开源社区的进展。目前,开源社区正在向GPT-4的水平推进,这是一个比较确定的趋势。至于视频内容的生成,我们可能还需要观察一段时间,看技术路线是否能够被开源社区更好地掌握。
华尔街见闻:
在过去两年的发展中,To C更受到资本的青睐。目前To B现在处于什么水平?这两个发展路径是否已经有了明确的主次之分?
杨晓峰:
对于To C和To B,我们的理解是这样的,以OpenAI为例,其主站表现良好,API销售情况也很好。最近,Kimi也向市场全面开放了自己的API,B端的发展速度也非常快。当然,这些B端企业最终也需要面向C端用户。如果没有用户,那么销量也不会大。
所以对于大模型公司来说,B端和C端是同步进行的。在海外,开发者越来越多,对API的需求也非常广泛。国内许多公司最近也都宣布接入Kimi的API,这说明市场上对这个需求很大。如果能够起量,对Kimi来说,ToB端的收入也将非常显著。
B端和C端其实是共生的。如果你的模型好,你的产品好,别人也会用你的API去做更多的产品。像OpenAI一样,不断提供更好的C端产品,同时也提供API。当然,这可能会有一些滞后。
华尔街见闻:
什么样的AI应用产品会有一个相对的护城河,能够长期盈利?
杨晓峰:
我认为,首先,必须持续迭代自己的产品。像OpenAI目前已经推出了很多产品,比如GPT4接下来还会推出Sora等更先进的模型,包括更好的语音模型。这意味着未来需要推出更多的模型,以持续吸引用户。
然而,OpenAI也面临一个问题,即随着模型越来越多,效果越来越好,所需的算力也越来越贵。在这种背景下,用户可能不愿意支付更高的费用。因此,海外的公司都在努力提高更好的模型,同时也在深入算力产业链的底层,降低成本。这样,未来可以为用户提供更好的模型,同时降低使用成本。这是海外发展的趋势。
好的AI应用公司必须能够提供持续迭代的新模型,并在一定程度上具有成本优势。如果没有成本优势,定价过高,用户也不会选择使用。从OpenAI目前的动作来看,他们已经在做这方面的工作。因为他们目前的模型对算力的需求很大,如果直接推出,用户可能不愿意支付。所以未来的目标就是降低成本,同时提供更好的模型。对于国内的创业公司来说,一方面有云计算厂商的支持,另一方面也在不断迭代AI模型产品,这样的公司在很长一段时间内都会有很大的竞争优势。
华尔街见闻:
Kimi目前只有文本生成功能,相比视频生成所需要耗费的算力更少,这是否意味着它比视频生成更容易实现?
杨晓峰:
确实,因为视频生成消耗的算力非常大。想象一下,视频需要生成很多张图片,并且要进行多次迭代才能选出最佳结果。例如,生成一张图片可能只需要一次,但视频可能需要每张图片生成大约50次才能选出一张合适的来合成。根据我们的测算,一个Sora视频的推理可能需要大约10秒,这可能是GPT4一次推理的几十倍。
为什么OpenAI那么急于降低成本。他们通常每月收取20美元提供GPT4服务,但如果算力需求增加几十倍,他们可能不得不向用户收取200美元一个月去使用Sora。这样的话,用户肯定不愿意支付,所以他们也在努力降低成本。目前,视频的算力需求仍然相对较高。
因此,在当前情况下,许多公司最核心的是先抢占文生文的市场,等到用户需求足够普及后,再去开发这种高算力应用。
实际上,我们也看到OpenAI在日活跃用户接近一亿之前,主要还是集中在文生文和文生图上,并没有向所有用户推广Sora。根据目前的新闻,可能要到年底才推出。所以,目前最关键的是先抓住文生文市场。至于文生视频模型,目前还处于紧张的准备阶段。
华尔街见闻:
随着Kimi的火爆,甚至出现了Kimi概念股,您认为我们对AI领域的关注度是否过高?
杨晓峰:
我认为这是正常的。AI作为一种新的业态,对许多行业都具有颠覆性的影响。我们最近每周经历的变化可能是过去几年才能发生的。随着科技的快速发展,大家都在关注AI,这是一个普遍现象。国内外的科技领袖,如黄仁勋等,他们的新闻在海外也备受关注。国内Kimi的崛起也引起了广泛讨论。全球对AI的关注都很高,因为它确实在改变我们的生活。
例如,AI在绘画领域的影响,我们需要了解AI绘画达到了什么水平,以便在未来深入这个领域。AI正在改变我们的生活方式,甚至很多人的生活都在发生变化。因此,这种关注度是正常的,并且未来还会持续。我们以前关注的是海外的新产品,但未来一年里,我们可能会看到很多国产的AI应用出现,大家的关注度将会更多地集中在这些产品上。这是一个值得期待的时代,我们现在看到的变化可能是过去几年才能发生的。