4月8日华为发布了盘古大模型,引发业内高度关注。盘古NLP大模型在三方面实现了突破性进展。
第一、具备先进的语言理解和模型生成能力,盘古NLP大模型在权威的中文语言理解评测基准CLUE总排行榜及分类、阅读理解单项均排名第一,刷新三项榜单世界历史记录;
第二、在预训练阶段沉淀了大量的通用知识,仅能做到理解又能做到生成,除了像GPT-3等基于端到端的生产方式之外,还能够通过少量样本学习对意图进行识别,转化为知识库和数据库查询。
第三、采用大模型小样本的调优路线,实现小样本学习任务上超越GPT系列。
华尔街见闻·见智研究认为:人工智能的发展就是从小模型到大模型,未来几年大模型的研发浪潮将会加速推动AI行业的快速发展,并且将渗透到众多行业中。
专用模型下,数据安全被重视
在细分领域下,行业数据会直接影响到技术迭代速度、商业竞争等,被看作是大模型训练的“黄金钥匙”,这也是为什么现在各个国家将数据安全提高至最高等级。
此前,三星半导体部门就曾发生数据安全泄露的重大事故。
根据韩国媒体 Economist 的报道,出于担心可能发生的内部机密信息泄露,三星一直阻止其员工在工作场所使用 ChatGPT。不过从 3 月 11 日起,三星向其半导体部门的员工授予了 ChatGPT 的使用权限(其他部门仍被禁止)。在三星员工使用 ChatGPT 来帮助他们完成工作时,三星的机密数据也不知不觉就泄露了。
所以,行业数据安全在大模型中需要有很高的安全性保证。基于这点来看,也催生出各个领域的巨头对大模型研发的渴求,毕竟关键的数据将直接影响公司商业价值的时间长度。
接下来,多家巨头都将会宣布陆续发布自家的大模型。
(预计)4月10日商汤发布大模型
(预计)4月11日阿里发布大模型
(预计)4月14日同花顺发布AI产品
(预计)5月6日科大讯飞发布大模型
(预计)5月腾讯发布混元大模型
而对于没有很强资金实力的公司来说,盘古大模型就可以提供很好的数据训练。
从盘古大模型来看为例,划分为L0-L1-L2三个层级:
L0层级:包含视觉大模型:部分应用场景成绩位居世界第一,包括矿山场景、铁路作业故障检测等等;NLP大模型也就是上文提到的自然语言大模型;图网络大模型、多模态大模型以及科学计算大模型。
L1层级:是基础模型与行业数据结合后的混合大模型,需要有很高的know-how经验,这也就决定了行业大模型的垂直性,并且还要重点关注模型内的训练参数质量和安全性。
L2层级:是把L1层级下有业务场景进行部署后生成的细分场景模型,更具有专用性。
见智研究认为:特别是在L1和L2层级下,盘古大模型能够极大程度的帮助各行各业进行定制化训练,并且减少基础大模型的高昂研发费用,同时还能保证数据安全。
小结:人工智能的时速竞赛才刚刚启程,接下来会是大模型的商业厮杀,谁越早发布、质量越高、数据安全性越高,就能抢先获得客户青睐,可谓是分秒必争的时刻。