R1“轰炸”还不够,DeepSeek发布新开源AI模型,生图能力胜过DALL-E 3

硬AI
DeepSeek称Janus-Pro框架简单且灵活性高。它采用视觉编码解耦方式提升不同任务中的适配性和性能,用统一的Transformer架构处理任务,适配384x384分辨率。基准测试中,70亿参数的Janus-Pro-7B表现强于包括DALL-E 3在内的其他模型,且较前代Janus准确率大幅提高。JanusFlow采用极简架构,将自回归语言模型与矫正流结合,无需复杂架构修改,生图支持384x384分辨率。

本文作者:李丹

来源:硬AI

海外网友才开始经受R1的“洗礼”,中国人工智能(AI)初创DeepSeek又发布了新的模型,给闭源模型带来开源图像生成的震撼。

美东时间1月27日周一,AI社区Hugging Face显示,DeepSeek发布了分别名为Janus-Pro和JanusFlow的一系列开源多模态AI模型,参数大小从10亿到70亿不等,都已可在Hugging Face下载。

其中,70亿参数的Janus-Pro-7B号称在图像创建的能力方面超越了OpenAI 的DALL-E 3和Stable Diffusion模型。

DeePSeek展示的下图可见,在文生图GenEval和DPG-Bench基准测试中,Janus-Pro-7B的准确率较前代Janus大幅提高,准确率测试结果分别为80%和84.2%,高于包括DALL-E 3在内的其他对比模型,Janus的准确率分别为61%和79.7%。

DeepSeek称,Janus-Pro和JanusFlow的代码基于MIT许可证授权,这意味着它们可以不受限地用于商业用途。

Janus-Pro采用视觉编码解耦方式 统一Transformer架构

Janus-Pro是一款统一多模态理解与生成的创新框架,通过视觉编码解耦的方式,采用独立的路径分别处理多模态理解与生成任务,从而解决视觉编码器在两种任务中的功能冲突,大幅提升模型在不同任务中的适配性与性能,同时仍使用统一的 Transformer 架构处理多模态任务。

DeepSeek介绍:

“Janus-Pro 是一种新颖的自回归框架,统一了多模态理解和生成。它通过将视觉编码分离为独立的路径来解决以前方法的局限性,同时仍然使用单一、统一的转换器架构进行处理。Janus-Pro超越了之前的统一模型,并达到或超过了特定任务模型的性能。Janus-Pro 的简单高灵活性有效性使其成为下一代统一多模式模型的有力候选者。”

Janus-Pro基于DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base两个架构打造,使用SigLIP-L视觉编码器,高质量图像生成能力,支持384x384 分辨率输入,满足多场景需求,并采用LlamaGen Tokenizer生成模块,下采样率为 16,生成更精细的图像。

Janus-Pro架构高度灵活且设计统一,可适配视觉问答、图像标注等多模态场景。

下图可见Janus-Pro和Janus的文生图效果对比。相比Janus,Janus-Pro对短提示词的输出更稳定,视觉质量提高,细节更丰富,且增加了生成简短文本的功能。

JanusFlow极简架构 无需复杂架构修改 生图支持384x384分辨率

DeepSeek介绍,JanusFlow这个框架将图像理解和生成统一在一个模型中。

对于JanusFlow,DeepSeek采用了“一种极简架构,将自回归语言模型与生成建模中最先进的方法“矫正流”(Rectified Flow)相结合。” DeepSeek发现,矫正流可以在大语言模型(LLM)框架内直接训练,无需进行复杂的架构修改

换言之,JanusFlow的架构极简,直接将生成流融入LLM框架,从而简化了多模态建模流程。

DeepSeek称,JanusFlow 是一款统一的理解和生成多模态大语言模型(MLLM)。它将视觉编码与多模态理解和生成分离,它基于 DeepSeek-LLM-1.3b-base构建。

对于多模态理解,JanusFlow使用 SigLIP-L 作为视觉编码器,支持384 x 384图像输入。对于图像生成,JanusFlow 使用矫正流与SDXL-VAE结合,生成 384 x 384分辨率图像。提供的检查点是预训练和监督微调后的EMA检查点。

下图可见JanusFlow的基准测试表现与LLaVA等其他模型对比,以及它的生图结果展示。

本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章