最近几个月,国产大模型的内卷激烈程度可以用“神仙打架”来形容。本周五,大模型混战又达到了新高度,据华尔街见闻不完全统计,仅在今天,就有华为、阿里、腾讯、商汤、京东等企业发布或更新大模型。
“百模大战”的盛况中,谁最有可能造出中国版GPT-4?
华为云盘古大模型3.0正式发布
7月7日,华为云在开发者大会2023上发布盘古大模型3.0。华为常务董事、华为云CEO张平安表示,盘古大模型3.0是完全面向行业的大模型,包括“5+N+X”三层架构。
张平安在会上表示,盘古大模型不会作诗,只做事,将围绕“行业重塑”“技术扎根”“开放同飞”三大创新方向,持续打造核心竞争力,为行业客户、伙伴及开发者提供更好的服务。
三层架构分别为:
L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型,提供满足行业场景中的多种技能需求。盘古3.0为客户提供100亿参数、380亿参数、710参数和1000亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集,包括NLP大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型,盘古提供一致的能力集。
L1层是N个行业大模型,华为云既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等大模型;也可以基于行业客户的自有数据,在盘古大模型的L0和L1层上,为客户训练自己的专有大模型。
L2层为客户提供了更多细化场景的模型,更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,为客户提供“开箱即用”的模型服务。
盘古大模型采用完全的分层解耦设计,可以快速适配、快速满足行业的多变需求。客户既可以为自己的大模型加载独立的数据集,也可以单独升级基础模型,也可以单独升级能力集。
在L0和L1大模型的基础上,华为云还为客户提供了大模型行业开发套件,通过对客户自有数据的二次训练,客户就可以拥有自己的专属行业大模型。同时,根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。
阿里AIGC应用“通义万相”
在2023年世界人工智能大会上,阿里云正式推出AI绘画新品“通义万相”。
基于阿里研发的组合式生成模型Composer,通义万相提出了基于扩散模型的「组合式生成」框架,通过对配色、布局、风格等图像设计元素进行拆解和组合,提供了高度可控性和极大自由度的图像生成效果。
用户可以在通义万相中输入提示词,以输出相应图像。除文生图以外,通义万相也推出了包括风格迁移、相似图生成等功能。
从此,图片设计的门槛将大幅降低,无论是艺术设计、游戏,还是文创,都将迎来一场变革。
目前,通义万相具有以下三大功能:文生图、相似图生成、风格迁移。
文生图功能为基本的形式,只要输入prompt,选定创作风格(水彩、油画、中国画、扁平插画、二次元、素描、3D卡通等),通义万相就可以自动生成海量的创意灵感。通义万相已正式上线,对外提供服务。
相似图生成则可以让用户根据现有素材,快速地批量扩展相似素材。只要用户提供一张参考图像,就可以获得一张与之内容、风格类似的图像。
而风格迁移,则是为一张原图生成一幅指定风格的新图。
下图为来自“新智元”的测试,使用通义万相将下图穿着白纱女性,改成法国印象派画家雷诺阿的风格。
迁移完成后,得到了这样一幅印象派的人物肖像。
据“新智元”测评表示,通义万相的部分作图能力,已经在逼近全球最牛AI作画神器Midjourney。
腾讯MaaS平台升级
世界人工智能大会期间,腾讯云宣布升级MaaS平台,将行业大模型能力应用到金融风控、同传翻译、数智人客服等新场景中;其中,首次公布的金融风控大模型,相比传统风控有10倍效率提升。
在技术底座领域,自研星脉高性能计算网络、向量数据库,为大模型的行业应用提供更充沛的算力基础设施。其中,最新升级的腾讯云自研星脉高性能计算网络,能提升40%的GPU利用率,节省30%~60%的模型训练成本,为AI大模型带来10倍通信性能提升。基于腾讯云新一代算力集群HCC,可支持10万卡的超大计算规模。腾讯云AI原生向量数据库,最高支持10亿级向量检索规模,延迟控制在毫秒级,相比传统单机插件式数据库检索规模提升10倍,同时具备百万级每秒查询(QPS)的峰值能力。
在应用创新方面,腾讯云行业大模型能力应用到金融风控、交互翻译、数智人客服等场景中,极大提升了智能应用效率。
行业大模型加持的金融风控解决方案,相比之前有了10倍效率提升,通过腾讯积累超过20年的黑灰产对抗经验和上千个真实业务场景,整体反欺诈效果比传统模式有20%左右的提升。企业可以基于prompt模式,迭代风控能力,从样本收集、模型训练到部署上线,实现全流程零人工参与,建模时间也从2周减少到仅需2天。即便样本积累有限的情况下,也可以完成快速搭建,跳过“冷启动”过程。
在交互翻译领域,基于行业大模型技术加持,同传技术不再需要百万级的训练数据,仅需“小样本”训练就能实现较好效果,专业领域的翻译也能减少人工调优的参与,保障翻译效果,在多个垂直行业落地。其中,腾讯同传已经连续六年为世界人工智能大会主论坛提供AI同传服务。
在数智人领域,今年腾讯云推出了小样本数字人工厂,仅需少量数据、24小时内即可复刻2D数字分身,让企业应用数智人服务成本大大降低。现在,依托AI生成算法,数智人3D形象的复刻速度得到大幅提升,通过生成式动作驱动,结合行业大模型能力,可让企业获得更“个性化、专业、自然逼真”的数智员工,让“面对面”专业服务成为可能。
商汤大模型全面升级
世界人工智能大会期间,在“大爱无疆·日日新”人工智能论坛上,商汤科技宣布“商汤日日新SenseNova”大模型体系将多方位全面升级,以及在该体系下的一系列大模型产品更新和落地成果。
作为千亿级参数的自然语言处理模型,商汤商量SenseChat 2.0版本突破了大语言模型输入长度限制,并推出不同参数量级的模型版本,可完美适配移动端、云端等不同终端及场景的应用需求,降低部署成本。商汤的自研生成式大模型商汤秒画SenseMirage 3.0的模型参数从今年4月首次发布以来的10亿提升至70亿量级,能够实现专业摄影级的图片细节刻画。
不仅如此,商汤如影SenseAvatar 2.0数字人生成平台相较1.0版本的语音和口型流畅度提升30%以上,实现4K高清视频效果,并带来AIGC生成形象及数字人歌唱功能。此外,商汤琼宇SenseSpace 2.0的空间重建效率提升20%,渲染性能提升50%,每100平方公里场景的建图时间仅需38小时即可完成(1200 TFLOPS/秒算力支持);而商汤格物SenseThings 2.0对小物体的纹理及材质还原达到毫米级精细度,并突破对高反光和镜面物体的采集难题。
在金融领域,商汤与银行、保险、券商等客户展开合作,利用数字人进行智能客服、智慧营销等工作,并通过接入大语言模型能力,提供投研分析、研报撰写等新功能,实现降本增效。此外,挂载金融知识库后,还能100%基于客户的产品说明进行内容问答输出,并实现信息及时更新。
在医疗场景,商汤基于海量医学知识和临床数据打造了中文医疗语言大模型“大医”,提供导诊、问诊、健康咨询、辅助决策等多场景多轮会话能力,未来也即将支持医学图像、文本、结构化数据等多模态综合分析,并可不断提升医疗语言理解和推理能力,持续赋能医院诊疗效率及患者服务提升。
其他AI企业进展
本土AI独角兽出门问问发布“序列猴子”
出门问问携内测探索大模型“序列猴子”及AI CoPilot解决方案亮相世界人工智能大会。据介绍,“序列猴子”是一款具备多模态生成能力的大语言模型,模型以语言为核心的能力体系涵盖“知识、对话、数学、逻辑、推理、规划”六个维度,能够同时支持文字生成、图片生成、3D内容生成、语言生成和语音识别等不同任务。“序列猴子”具备自然语言理解、知识、逻辑以及推理等能力,并可以基于这些能力进行对话。
京东:正在训练大模型,对其前景很有信心
京东集团副总裁、探索研究院院长何晓冬表示,目前训练时间在两个月左右的基础通用大模型,成本估计在几千万元,对大模型的商业前景和落地场景很有信心。他建议,创业公司入局大模型应该找到属于自己的“护城河”,面对目前的“百模大战”现状,何晓冬认为,对于市场而言,有压力和竞争是好事,将有效促进行业发展。