今日要点
1、AI智能体成为科技巨头争抢的新风口;
2、宣称超越Gen-2还免费开放,文生视频大模型进入开源竞赛;
3、国内发布首个胸部X-ray诊断大模型,将提高医疗诊断准确性和效率;
每日见智AI
1、AI智能体成为科技巨头争抢的新风口
近期,AI 领域的大佬和科技巨头对人工智能智能体的发展表现出极大兴趣,并寄予了厚望。特斯拉前AI总监、今年年初回归OpenAI的Andrej Karpathy近日在一次开发者活动上透露,OpenAI内部对于新的AI智能体论文表现出极大兴趣,并进行认真讨论。
与此同时,英伟达公司开源的VOYAGER也给AI圈带来了轰动效应。作为一个基于大模型驱动和具备终身学习能力的游戏智能体,VOYAGER在《我的世界》中展现出了非凡的水平。这一成就进一步引发了对于AI智能体的兴趣,并被认为是通用人工智能(AGI)的雏形之一。
见智点评:
尽管目前这些AI智能体还远未达到完全模拟人类智能的程度,但其出现表明了人工智能领域正在不断向前发展,并且吸引了全球范围内的关注。对于这些智能体的研究和开发有望为我们在未来实现通用人工智能的目标迈出重要一步。
随着越来越多的公司和研究机构投入到AI智能体的研究中;比如已经出现用于科学发现的智能体ChemCro能够完成有机合成、药物发现和材料设计等任务;未来可以预见,我们将会看到更多令人惊叹的成果和突破,推动人工智能技术迈向新的高度。
2、宣称超越Gen-2还免费开放,文生视频大模型进入开源竞赛
最近,Huggingface上有作者发布了一个文生视频模型Zeroscope_v2,开发者cerspense表示,他的目标就是和Gen-2进行开源较量,即提高模型质量的同时,还能免费供大众使用。
Zeroscope_v2大模型是基于17亿参数量ModelScope-text-to-video-synthesis模型进行二次开发。相比于原版本,Zeroscope生成的视频没有水印,并且流畅度和分辨率都得到了提升,适配16:9的宽高比。
见智点评:
文生视频领域仍处于起步阶段,可生成几秒钟的视频且存在视觉缺陷。Zeroscope_v2的快速生成速度和较低的显存需求使其适用于视频概念的快速验证。这将帮助创作者、设计师等快速生成原型和样本视频,节省时间和资源成本。
但见智并不认为目前该模型具备超越Gen2的能力;不过Zeroscope_v2为开发者提供了高质量的开源模型,提高了视频生成效率,同时也为文生视频应用的创新提供了更广阔的可能性。
与文生图不同,文生视频领域面临更高的资源需求和技术挑战,同时对时间和连贯性有更高的要求,应用领域也更为广泛。
3、国内发布首个胸部X-ray诊断大模型,将提高医疗诊断准确性和效率
上海交通大学与上海人工智能实验室联合团队聚焦医学人工智能,提出了首个基于医学领域知识增强的 Chest X-ray 的基础模型 KAD,论文成果入选Nature子刊。
KAD模型通过在大规模医学影像与放射报告数据进行预训练,通过文本编码器对高质量医疗知识图谱进行隐空间嵌入,利用视觉 - 语言模型联合训练实现了知识增强的表征学习。
在不需要任何额外标注情况下,KAD 模型即可直接应用于任意胸片相关疾病的诊断,为开发人工智能辅助诊断的基础模型提供了一条切实可行的技术路线。
见智点评:
KAD模型提出了一种基于知识增强的表征学习方法,为医疗基础模型的应用和落地提供了解决方案。其训练框架只需要影像-报告数据,不依赖于人工注释,并且无需监督微调即可达到与专业医生相当的精度。这一创新有望推动医疗基础模型在临床实践中的应用,提高医疗效率和诊断准确性。
总体而言,KAD模型在医学人工智能领域具有重要的意义和影响。它为医学影像诊断提供了一种新的技术路线,能够加速诊断过程、提高准确性,并为医生提供更多的辅助信息。随着该模型的进一步发展和推广,预计会促进医疗基础模型在临床实践中的广泛应用,为医疗行业带来更多的创新和效益。