华尔街见闻获悉,近日,基于最新的豆包视觉理解模型,豆包APP上线了实时视频通话功能,用户在电话界面开启视频画面后,豆包能基于真实场景与用户进行实时问答互动,模型能够融合视觉与语言输入,进行综合的深度思考和创作。
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
华尔街见闻获悉,近日,基于最新的豆包视觉理解模型,豆包APP上线了实时视频通话功能,用户在电话界面开启视频画面后,豆包能基于真实场景与用户进行实时问答互动,模型能够融合视觉与语言输入,进行综合的深度思考和创作。
去年底,豆包上线图片理解功能,支持上传图片后识别内容,包括理解梗图等。如今,豆包进一步升级,将视觉理解能力延伸到视频场景,让用户在生活场景中直接互动,大幅降低用户的交互门槛。(全天候科技)