本文作者:李丹
来源:硬AI
海外网友才开始经受R1的“洗礼”,中国人工智能(AI)初创DeepSeek又发布了新的模型,给闭源模型带来开源图像生成的震撼。
美东时间1月27日周一,AI社区Hugging Face显示,DeepSeek发布了分别名为Janus-Pro和JanusFlow的一系列开源多模态AI模型,参数大小从10亿到70亿不等,都已可在Hugging Face下载。
其中,70亿参数的Janus-Pro-7B号称在图像创建的能力方面超越了OpenAI 的DALL-E 3和Stable Diffusion模型。
DeePSeek展示的下图可见,在文生图GenEval和DPG-Bench基准测试中,Janus-Pro-7B的准确率较前代Janus大幅提高,准确率测试结果分别为80%和84.2%,高于包括DALL-E 3在内的其他对比模型,Janus的准确率分别为61%和79.7%。
DeepSeek称,Janus-Pro和JanusFlow的代码基于MIT许可证授权,这意味着它们可以不受限地用于商业用途。
Janus-Pro采用视觉编码解耦方式 统一Transformer架构
Janus-Pro是一款统一多模态理解与生成的创新框架,通过视觉编码解耦的方式,采用独立的路径分别处理多模态理解与生成任务,从而解决视觉编码器在两种任务中的功能冲突,大幅提升模型在不同任务中的适配性与性能,同时仍使用统一的 Transformer 架构处理多模态任务。
DeepSeek介绍:
“Janus-Pro 是一种新颖的自回归框架,统一了多模态理解和生成。它通过将视觉编码分离为独立的路径来解决以前方法的局限性,同时仍然使用单一、统一的转换器架构进行处理。Janus-Pro超越了之前的统一模型,并达到或超过了特定任务模型的性能。Janus-Pro 的简单、高灵活性和有效性使其成为下一代统一多模式模型的有力候选者。”
Janus-Pro基于DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base两个架构打造,使用SigLIP-L视觉编码器,高质量图像生成能力,支持384x384 分辨率输入,满足多场景需求,并采用LlamaGen Tokenizer生成模块,下采样率为 16,生成更精细的图像。
Janus-Pro架构高度灵活且设计统一,可适配视觉问答、图像标注等多模态场景。
下图可见Janus-Pro和Janus的文生图效果对比。相比Janus,Janus-Pro对短提示词的输出更稳定,视觉质量提高,细节更丰富,且增加了生成简短文本的功能。
JanusFlow极简架构 无需复杂架构修改 生图支持384x384分辨率
DeepSeek介绍,JanusFlow这个框架将图像理解和生成统一在一个模型中。
对于JanusFlow,DeepSeek采用了“一种极简架构,将自回归语言模型与生成建模中最先进的方法“矫正流”(Rectified Flow)相结合。” DeepSeek发现,矫正流可以在大语言模型(LLM)框架内直接训练,无需进行复杂的架构修改。
换言之,JanusFlow的架构极简,直接将生成流融入LLM框架,从而简化了多模态建模流程。
DeepSeek称,JanusFlow 是一款统一的理解和生成多模态大语言模型(MLLM)。它将视觉编码与多模态理解和生成分离,它基于 DeepSeek-LLM-1.3b-base构建。
对于多模态理解,JanusFlow使用 SigLIP-L 作为视觉编码器,支持384 x 384图像输入。对于图像生成,JanusFlow 使用矫正流与SDXL-VAE结合,生成 384 x 384分辨率图像。提供的检查点是预训练和监督微调后的EMA检查点。
下图可见JanusFlow的基准测试表现与LLaVA等其他模型对比,以及它的生图结果展示。
本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里