AI见闻日报:大模型思想克隆!让AI像人类一样思维,学习泛化能力大幅提升;SAM视觉模型升级,分割能力大幅提升 | 见智研究

1、下一代模型训练方法:不是预测下一个字,而是模仿人类思维学习在行动中思考 2、SAM视觉模型升级,分割能力再提升,将进一步提升多模态能力 3、微软Office 365 Copilot已经扩大试用范围,开启涨价 4、谷歌发布AI学习课程,专为初学者设计

今日要点:

1、下一代模型训练方法:不是预测下一个字,而是模仿人类思维学习在行动中思考

2、SAM视觉模型升级,分割能力再提升,将进一步提升多模态能力

3、微软Office 365 Copilot已经扩大试用范围,开启涨价

4、谷歌发布AI学习课程,专为初学者设计

见闻视角

海外AI

1、下一代模型训练方法:不是预测下一个字,而是模仿人类思维学习在行动中思考

要点:

  • 动机:提出一种新的模仿学习框架,Thought Cloning,通过模仿人类思考过程来改进强化学习智能体的表现。研究者认为,强化学智能体在泛化能力、探索能力、规划能力、适应新情境的能力等方面远远不及人类,其中一个原因是缺乏语言思考的收益。
  • 方法:提出Thought Cloning,不仅克隆人类示范者的行为,还克隆人类在执行这些行为时的思考过程。通过在大规模的包含人类思考过程的数据集上训练,论文验证了Thought Cloning相比行为克隆方法在学习速度和处理新情境能力上的优势。
  • 优势:Thought Cloning相较于行为克隆方法具有更快的学习速度,并且在面对新情境任务时具有更大的性能优势。此外,Thought Cloning还对AI安全性和可解释性有重要益处,可以更容易地诊断问题、纠正代理的思考或阻止代理执行不安全的计划。
  • 思想数据来源:研究者选取了YouTube视频和文字录音,有大约数百万小时,包含了人们行动、计划、决定和重新规划背后的思想。

见智研究一句话总结:

Shengran Hu, Jeff Clune(前OPEN AI成员)提出了一种名为Thought Cloning的模仿学习框架,通过模仿人类思考过程来训练AI智能体,提高其学习速度、泛化能力和处理新情境的能力,同时提供重要的AI安全性和可解释性优势。

在Jeff Clune看来,思想克隆有助于人工智能的安全。因可以观察到智能体的思想:(1)可以更容易地诊断出事情出错的原因,(2)通过纠正智能体的思想来引导它,(3)或者阻止它做所计划的不安全的事情。

2、SAM视觉模型升级,分割能力再提升,将进一步提升多模态能力

HQ-SAM,使 SAM 具备准确分割任何物体的能力,同时保持 SAM 原有的提示设计、效率和零样本泛化能力。我们的精心设计重用并保留了 SAM 的预训练模型权重,同时只引入了最少的额外参数和计算。

研究人员设计了一个可学习的高质量输出令牌,它被注入到 SAM 的掩码解码器中,并负责预测高质量掩码。我们不是仅将其应用于掩码解码器功能,而是首先将它们与早期和最终 ViT 功能融合以改进掩码细节。为了训练我们引入的可学习参数,研究人员从多个来源组成了一个 44K 细粒度掩码数据集。 HQ-SAM 仅在引入的 44k 掩模 detaset 上进行训练,在 8 个 GPU 上仅需 4 小时。我们展示了 HQ-SAM 在跨不同下游任务的一组 9 个不同分割数据集中的功效,其中 7 个在零镜头传输协议中进行了评估。

见智研究认为,SAM模型的出现让视觉模型的范式发生改变,让原本在视觉领域有所积累的AI公司被迅速拉平距离,甚至让相当一部分此前积累的技术变得毫无意义。而此次SAM模型的升级,将是分割能力再次大幅提升。同时保持 SAM 原有的提示设计、效率和零样本泛化能力。通用大模型多模态领域的进化将再次升级。

3、微软Office 365 Copilot已经扩大试用范围,开启涨价

包括美国银行、沃尔玛、福特和埃森哲在内的600多家微软最大的客户预计将试用Microsoft Office 365中的人工智能功能,其中至少已有100家客户已经额外分别为1000个订阅账户支付了高达10万美元的年费。(在原有的Office 365年费基础上,每个账户多支出100美元)

与经典版本相比,这一AI版本的Office 365价格至少高出了40%,具有自动在Word文档中撰写文字和自动创建PPT等增值功能。

见智研究认为,目前阶段,微软为office AI定价较高的其中一个原因是这些功能通常需要更多的GPU服务器算力,比传统的服务器消耗更多资源成本。市场普遍看好AI将为微软带来一次新的用户付费改善飞跃,但市场仍需观察微软是否能在该项产品上做的足够好,以及在现有GPU短缺的情况如何扩展用户数量的桎梏。

4、谷歌发布AI学习课程,专为初学者设计

谷歌发布了一个名为 "Generative AI learning path" 的学习路径课程,专门为初学者设计。它从基础概念开始,如什么是生成式AI,然后逐步深入到更复杂的主题,如创建图像字幕模型和使用Vertex AI的生成式AI工作室。目标是帮助初学者理解生成式AI的基础知识,以及如何在Google Cloud上使用生成式AI。

明日看点:

苹果WWDC将在北京时间6月6日凌晨2点召开,据悉,本次WWDC将是苹果有史以来最长的一次。XR是否能成为下一个iPhone,全世界都在期待这次的one more thing.

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章