今日要点
1、机器人看YouTube学会做家务,大规模视频训练机器人成为重要路径;
2、AI果不其然对视频下手了,十秒剪视频,Whisper模型让每个人都能成为“剪辑师”;
3、开源大模型明星更新第二版:ChatGLM2-6B推理更快文字更长,允许商用授权;
4、PrivateGPT 开源模型可实现不连网提问;本地部署未来空间大;
5、李彦宏表示:百度文心大模型推理速度提升17倍;
每日见智AI
1、机器人看YouTube学会做家务,大规模视频训练机器人成为重要路径
CMU机器人研究所助理教授Deepak Pathak展示了一种视觉机器人桥方法(VRB);通过让机器观看人类行为方式的视频完成行为模拟,并验证了该方法的有效性。
视频中机器人下观看了几个人类开抽屉的视频后,”CMU指出,“机器人可以确定如何打开任何抽屉。
CMU依赖于来自Epic Kitchens和Ego4D等数据库的视频,后者拥有“来自世界各地的近4小时的以自我为中心的日常活动视频”。
见智点评:
这种方法的关键在于利用大规模的视频数据来训练机器人,并从中学习人类行为和操作。这为机器人的应用提供了更广泛的可能性,可以通过观察互联网和YouTube等视频来获取更多的训练数据。这种方法可以改进机器人的操作能力,并为机器人在日常生活中的应用提供更多的机会
2、AI果不其然对视频下手了,十秒剪视频,Whisper模型让每个人都能成为“剪辑师”
荷兰开发者Matthijs Hollemans在HuggingFace上基于Whisper开发了视频剪辑新功能,现在剪视频能够精准到每个字。
在平台上可以对上传的视频内容进行同步文字转化,只需要选择留下的文字,然后就可以直接生成所需的片段。使用过程非常简单,可累比相机界的“傻瓜相机”。
见智点评:
AI应用层出不穷,此前主要是AI生成图片内卷非常严重,几乎是每周都有重要更新,现在这个迭代速度已经开始向视频领域蔓延,这个小白剪视频的功能让剪视频门槛大大降低,同时节省了很多制作时间,效率优化超过90%,对于视频创作行业来说具有重大影响。
3、开源大模型明星更新第二版:推理更快文字更长,允许商用授权
清华大学KEG和数据挖掘小组(THUDM)发布了第二代ChatGLM2-6B;
相比第一代ChatGLM2-6B来看,二代在几项测评中都有了不同程度的提高:
a、特别是数学推理能力提升幅度571%;
b、支持更多轮次的对话,并且文字长度限制也从2K提升至8K;
c、更快的推理能力,相比第一代速度提高42%;
d、向学术研究全面开放,并且允许申请商用授权;
见智点评:
ChatGLM2-6B是国内最强的开源大模型,本次更新具有重大意义,特别是在数学推理能力、对话长度和轮次、推理速度等方面的优化,将对数学教育、学术研究、商业应用等领域产生积极影响。
4、PrivateGPT 开源模型可实现不连网提问;本地部署未来空间大
开发者Iván Martínez Toro发布了PrivateGPT开源模型,该模型允许用户在无需互联网连接的情况下,通过提供自己的文档来向模型提问。
PrivateGPT可以在家用设备上进行本地运行,使用前需要下载名为"gpt4all"的开源大语言模型(LLM)。用户需要将所有相关文件放入一个目录中,以供模型引入所有数据。完成LLM的训练后,用户可以向模型提出任何问题,它将使用提供的文档作为上下文来回答。PrivateGPT能够处理超过58000个单词,目前需要大量本地计算资源(推荐使用高端CPU)进行设置。
Toro表示,当前PrivateGPT处于概念验证(PoC)阶段,它至少证明了可以在本地创建类似于ChatGPT的大模型。可以预见,一旦这种PoC转变为实际产品,PrivateGPT将具备让公司获得个性化、安全和私密的ChatGPT来提高生产力的潜力。
见智点评:
PrivateGPT开启行业对本地化部署的重视程度,这对于那些关注数据隐私和安全的行业和个人非常重要。通过本地化部署,用户可以更好地控制和保护他们的数据,减少了数据泄露和侵犯隐私的风险;开源模型和本地化部署将在未来产生积极的影响。
5、李彦宏:百度文心大模型推理速度提升17倍
在世界互联网大会数字文明尼山对话上表示:新的国际竞争战略的关键不在于一个国家拥有多少个大模型,而是看这些大模型能够应用于多少原生AI应用,并在多大程度上提升了生产效率。
他还透露,百度文心大模型已经更新到3.5版本。相比于3.0版本,新版本的训练速度提升了2倍,推理速度提升了17倍,并且模型的效果总体上提升了超过50%。在数据质量、生成效果和内容安全性方面都有明显的提升。