AI一周见闻:微软win11启动AI变革;英伟达助力办公软件降本23%;视频训练成为机器人重要学习路径 | 见智研究

1.Copilot"落户"Windows11,操作系统的AI变革时刻已来; 2.金山办公引入英伟达推理服务器和GPU,图像任务能降本23%; 3.Midjourney 5.2又更新,这次AI生图开始卷向表情包; 4.十秒剪视频,Whisper模型让每个人都能成为“剪辑师”; 5.机器人看YouTube学会做家务,大规模视频训练机器人成为重要路径; 6.Unity推出AI Hub平台,股价飙涨 15%,AI革命游戏的进程在加速;

见智视角

本周AI的重要风向在win操作系统、办公软件应用和大模型私有化部署所展现出巨大的市场潜力。微软的操作系统变革将为用户带来更智能、高效的体验,办公软件应用的AI技术将提高图像处理能力,而大模型私有化部署的发展将使AI在to B应用上更加安全可控,这些趋势将对相关行业和公司的发展产生重要影响,为AI的广泛应用提供更多机遇。

本周要点

AI应用:

  1. Copilot"落户"Windows11,操作系统的AI变革时刻已来
  2. 金山办公引入英伟达推理服务器和GPU,图像任务能降本23%
  3. Midjourney 5.2又更新,这次AI生图开始卷向表情包
  4. 十秒剪视频,Whisper模型让每个人都能成为“剪辑师”
  5. 机器人看YouTube学会做家务,大规模视频训练机器人成为重要路径
  6. Unity推出AI Hub平台,股价飙涨 15%,AI革命游戏的进程在加速

大模型:

  1. 谷歌 DeepMind花数千万美元打造ChatGPT的竞品,多模态视频训练将成为特色
  2. PrivateGPT 开源模型可实现不连网提问;本地部署未来空间大
  3. 恒生电子发布金融行业大模型LightGPT,金融大模型场景多样化,需求确定性强
  4. 智谱AI为大模型应用更近一步!成为法律专用大模型底座

融资风向:AI安全成为资本的下一个风口,CalypsoAI融资2300万美元

AI应用

1、Copilot"落户"Windows11,操作系统的AI变革时刻已来

微软官宣向开发者频道中的 Windows Insiders 提供 Windows Copilot 的早期预览。

第一个预览版重点关注集成 UI 体验,Windows Copilot 将显示为停靠在右侧的侧栏,不会与桌面内容重叠,并且将在打开的应用程序窗口旁边无障碍运行,可以随时与 Windows Copilot 进行交互。  

在window11 Copilot 的预览版本中,用户可以提出以下种类问题:

内容涉及:个性化系统设置、截图、文生文和文生图的功能;

此外,Win11更新还包括本机支持读取其他存档文件格式 ;如常见.rar\ .7z等压缩文件;

见智点评:

微软兑现了在 5 月份的 Build 大会上的承诺,本次Copilot 的预览版本落地win11,成为操作系统迈入AI时代的重要一步,之后win11会成为第一代AI系统的大规模商用版本;此外,微软也表示在25年会停止win10的服务,包括专业版和家庭版,意味着那时起操作系统将会全面进入AI 时代。这将为用户提供更智能、高效的操作体验,并为微软带来新的商业机会。

2、 金山办公引入英伟达推理服务器和GPU,图像任务能降本23%

金山办公官宣与NVIDIA 团队合作,为解决图像识别和理解任务耗时过长和成本的问题,

引入  NVIDIA T4 Tensor Core GPU 进行推理、NVIDIA TensorRT 8.2.4 进行模型加速、NVIDIA Triton 推理服务器 22.04 在 K8S 上进行模型部署与编排。

通过 GPU 推理和 TensorRT 加速,成功将耗时从15秒降低到了 2.4 秒左右;部署成本节省了 23% 。

见智点评:

英伟达推理服务器的部署,成功优化了GPU的利用率,提高了办公软件对图像文档识别和推理的效率,能够实现办公软件业务降本增效的预期。这一合作为WPS AI的落地应用提供了更高效的解决方案,这部分 AI 新能力集中在阅读理解、问答、人机交互等方面。

WPS AI 已经开始内测阶段,启动大规模商用后,对国内办公软件使用体验将带来全面升级。这一合作将提升金山办公的图像处理能力,并为其在办公软件市场中的竞争力带来优势。

3、Midjourney 5.2又更新,这次AI生图开始卷向表情包

Midjourney 5.2更新「weird」新功能,可自定义诡异等级。根据官网显示通过调节weird参数的大小即能够控制生成照片的诡异风格,参数越大照片越奇怪;但是该功能还只限于付费用户使用;


 此外,还更新了「turbo」模式:该功能是能够以四倍速加速图片生成;不过相较于传统快速作业模式仍旧是需要消耗2倍的GPU;


见智点评:

图片生成在AI的影响下正在从传统模式进入一种新范式,weird模式增加了图片超越常规认知的可能性创作,这种模式具备更多娱乐属性,如果免费开放应用,那么大概率会在社交圈引爆。这一更新将进一步推动表情包制作的自动化和智能化,为用户提供更多创意和娱乐选择。

4、十秒剪视频,Whisper模型让每个人都能成为“剪辑师”

荷兰开发者Matthijs Hollemans在HuggingFace上基于Whisper开发了视频剪辑新功能,现在剪视频能够精准到每个字。

在平台上可以对上传的视频内容进行同步文字转化,只需要选择留下的文字,然后就可以直接生成所需的片段。使用过程非常简单,可累比相机界的“傻瓜相机”。

见智点评:

AI应用层出不穷,此前主要是AI生成图片内卷非常严重,几乎是每周都有重要更新,现在这个迭代速度已经开始向视频领域蔓延,这个小白剪视频的功能让剪视频门槛大大降低,同时节省了很多制作时间,效率优化超过90%,对于视频创作行业来说具有重大影响。这将进一步推动用户在社交媒体上的创作和分享活动,对于Whisper模型的开发商来说,商业机会也将随之增加。

5、机器人看YouTube学会做家务,大规模视频训练机器人成为重要路径

CMU机器人研究所助理教授Deepak Pathak展示了一种视觉机器人桥方法(VRB);通过让机器观看人类行为方式的视频完成行为模拟,并验证了该方法的有效性。机器人观看了几个人类开抽屉的视频后,可以效仿人类行为做出打开抽屉的动作。

见智点评:

这种方法的关键在于利用大规模的视频数据来训练机器人,并从中学习人类行为和操作。这为机器人的应用提供了更广泛的可能性,可以通过观察互联网和YouTube等视频来获取更多的训练数据。这种方法可以改进机器人的操作能力,并为机器人在日常生活中的应用提供更多的机会。

视频训练将成为机器人学习的重要路径,进一步推动机器人技术在家庭和服务领域的应用和发展。

6、Unity推出AI Hub平台,股价飙涨 15%,AI革命游戏的进程在加速

全球领先的3D内容平台Unity宣布推出AI Hub平台,允许 AI 软件开发者通过 AI Hub 向游戏研发商直接供应开发软件,并通过 Unity 的 Asset Store 收费;

同时推出了10个经验证的解决方案,还在Unity Asset Store中推出两款新的AI产品“Unity Sentis“及“Unity Muse”并正式启动内测,预计将赋能AI驱动的游戏开发效率提升以及玩法升级。

见智点评:

AI将以非常迅速的节奏改变游戏制作方式以及降低成本,这已经成为游戏行业不可逆转的路径。游戏行业的格局或许也会因为生成式AI带来巨变,AI革命游戏行业的进程在加速。

新AI平台的推出印证了目前开发人员对于AI工具的巨大需求存在,而Unity似乎已经找到了新的盈利模式,AI Hub平台很快将成为开发者和游戏公司最受欢迎的资源聚合平台,看起来Unity将会在这场全新变革中赚的盆满钵满

大模型

1、谷歌 DeepMind花数千万美元打造ChatGPT的竞品,多模态视频训练将成为特色

谷歌DeepMind CEO Hassabis近日对外媒Wired表示,Gemini还在开发中,还需要几个月,而谷歌DeepMind已经准备砸进数千万美元,甚至数亿。

The Information最近的一篇报道表述:谷歌的研究人员一直在使用YouTube来开发Gemini。

人工智能从业者表示:这可能是谷歌DeepMind的一个优势,因为它可以“比抓取视频的竞争对手更完整地访问视频数据”。

见智点评:

Google或是受到上一代聊天机器人Bard发布会重大失误的刺激,目前对Gemini给予了厚望,希望不仅仅是对标ChatGPT,更想要超越,所以在训练下一代聊天机器人时候,更侧重多模态训练,特别是视频数据投喂,这点目前是ChatGPT所做不到的,也是Google想要的差异化市场竞争,大厂对大模型的争夺仍在继续。

2、PrivateGPT 开源模型可实现不连网提问;本地部署未来空间大

开发者Iván Martínez Toro发布了PrivateGPT开源模型,该模型允许用户在无需互联网连接的情况下,通过提供自己的文档来向模型提问。

PrivateGPT可以在家用设备上进行本地运行,使用前需要下载名为"gpt4all"的开源大语言模型(LLM)。用户需要将所有相关文件放入一个目录中,以供模型引入所有数据。完成LLM的训练后,用户可以向模型提出任何问题,它将使用提供的文档作为上下文来回答。PrivateGPT能够处理超过58000个单词,目前需要大量本地计算资源(推荐使用高端CPU)进行设置。

Toro表示,当前PrivateGPT处于概念验证(PoC)阶段,它至少证明了可以在本地创建类似于ChatGPT的大模型。可以预见,一旦这种PoC转变为实际产品,PrivateGPT将具备让公司获得个性化、安全和私密的ChatGPT来提高生产力的潜力。

见智点评:

PrivateGPT开启行业对本地化部署的重视程度,这对于那些关注数据隐私和安全的行业和个人非常重要。通过本地化部署,用户可以更好地控制和保护他们的数据,减少了数据泄露和侵犯隐私的风险;开源模型和本地化部署将在未来产生积极的影响。

3、恒生电子发布金融行业大模型LightGPT,金融大模型场景多样化,需求确定性强

LightGPT可以为投顾、客服、投研、运营、风控、合规、研发等金融业务场景提供底层AI能服务,支持超过80+金融专属任务指令微调。具备金融专业问答、逻辑推理、超长文本处理能力、多模态交互能力、代码处理等能力;

模型使用了超4000亿tokens的金融领域数据(包括资讯、公告、研报、结构化数据等)和超过400亿tokens的语种强化数据(包括金融教材、金融百科、政府报告、法规条例等),并以之作为大模型的二次预训练语料。

LightGPT拥有更为丰富、轻量化的部署方式,支持私有化/云部署以及灵活API调用,推理端仅需一机2卡部署。

见智点评:

一方面基于数据安全,一方面基于应用场景多样化,金融大模型的需求确定性很强。

此前彭博已推出金融行业大语言模型BloombergGPT;腾讯云也正在携手神州信息开展金融大模型合作;此前我们也作过多次金融大模型发展的动态点评,很多券商、银行和基金公司都在进行AI研发投入,以及AI产品的推出;恒生电子基于此前金融行业多年的IT服务经验,本次推出LightGPT大模型具有重要意义,之后我们也会继续跟进LightGPT开放测试之后的体验反馈。

4、智谱AI为大模型应用更近一步!成为法律专用大模型底座

幂律联合智谱AI发布基于中文千亿大模型的法律垂直大模型——PowerLawGLM,聚焦于法律细分领域,针对中文法律场景的应用效果具有独特优势,具备丰富的法律知识和法律语言理解能力。

基于PowerLawGLM大模型的能力,幂律还打造了法律对话产品ChatMe,现已正式上线,首批开放50个内测名额

PowerLawGLM是基于智谱的ChatGLM 130B通用千亿对话大模型进行联合研发,经过多轮多次高质量法律文本数据(裁判文书、法律法规、法律知识问答等)清洗及模型增量训练,得到法律版基座大模型LawGLM 130B。在100个问题的评测结果上来看:PowerLawGLM可实现70%左右的最优答案。

见智点评:

大模型如果直接应用在法律领域,会存在输出结果与需求很严重不匹配程度很高的问题。因为大模型的数据结果是基于数据训练来生成的,但是不同国家的法律规则是完全不同的,具有很强的专业性和区域限制,所以采用全球通用大模型很难得到满意的内容。

中文千亿大模型的法律垂直大模型PowerLawGLM就能够很好的适配我国的案例情况。中文法律大模型仅仅是一个开始,未来很多行业都会陆续推出专业领域的大模型,同时会基于垂直大模型打造人工智能对话产品。智谱AI做为最底层模型,对于开发专业领域大模型具有重要意义;之前还开源过一个更小容量的ChatGLM-6B模型,特别适合学习和轻量开发;另外最值得关注的是大模型训练中如何平衡训练稳定性和效率。

AI融资

AI安全成为资本的下一个风口,CalypsoAI融资2300万美元

CalypsoAI的产品可对标360安全管家,主要发布一些ChatGPT等大语言模型提供安全护栏的产品,包括恶意代码检测、越狱预防等特色防护功能。要解决数据隐私、安全防护、输出非法信息等难点,以加快金融、医疗、法律等行业对ChatGPT等生成式AI产品的场景化落地。

CalypsoAI在官网宣布,获得2300万美元(约1.6亿元)A-1轮融资。本次由Paladin Capital Group 领投,洛克希德·马丁风险投资、Hakluyt Capital等跟投。

见智点评:

资本的关注焦点已经不局限于大模型、AI应用、现在已经开始下注AI安全产品。毕竟大模型做为底层工具,一旦被污染或遭受攻击,输出的内容则会完全偏离预期,无疑是对算力资源的浪费,同时还会产生公司数据泄露等安全问题。所以AI安全产品也必然会成为未来市场需求的一个重要领域。

下周关注:人工智能大会

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。